Umeå universitets logga

umu.sePublikationer
Driftinformation
Ett driftavbrott i samband med versionsuppdatering är planerat till 10/12-2024, kl 12.00-13.00. Under den tidsperioden kommer DiVA inte att vara tillgängligt
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Semi-Supervised Topic Modeling for Gender Bias Discovery in English and Swedish
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap. Umeå universitet, Samhällsvetenskapliga fakulteten, Umeå centrum för genusstudier (UCGS). (Foundations of Language Processing)
Centre for Gender Research, Uppsala University.ORCID-id: 0000-0002-4954-4397
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap. (Foundations of Language Processing)ORCID-id: 0000-0002-4696-9787
2020 (Engelska)Ingår i: Proceedings of the Second Workshop on Gender Bias in Natural Language Processing / [ed] Marta R. Costa-jussà, Christian Hardmeier, Will Radford, Kellie Webster, Association for Computational Linguistics, 2020, s. 79-92Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Gender bias has been identified in many models for Natural Language Processing, stemming from implicit biases in the text corpora used to train the models. Such corpora are too large to closely analyze for biased or stereotypical content. Thus, we argue for a combination of quantitative and qualitative methods, where the quantitative part produces a view of the data of a size suitable for qualitative analysis. We investigate the usefulness of semi-supervised topic modeling for the detection and analysis of gender bias in three corpora (mainstream news articles in English and Swedish, and LGBTQ+ web content in English). We compare differences in topic models for three gender categories (masculine, feminine, and nonbinary or neutral) in each corpus. We find that in all corpora, genders are treated differently and that these differences tend to correspond to hegemonic ideas of gender.

Ort, förlag, år, upplaga, sidor
Association for Computational Linguistics, 2020. s. 79-92
Nyckelord [en]
gender bias, topic modelling
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling) Genusstudier
Forskningsämne
datalogi; genusvetenskap
Identifikatorer
URN: urn:nbn:se:umu:diva-177576OAI: oai:DiVA.org:umu-177576DiVA, id: diva2:1509697
Konferens
GeBNLP2020, COLING'2020 – The 28th International Conference on Computational Linguistics, December 8-13, 2020, Online
Projekt
EQUITBLTillgänglig från: 2020-12-14 Skapad: 2020-12-14 Senast uppdaterad: 2021-01-14Bibliografiskt granskad

Open Access i DiVA

fulltext(435 kB)345 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 435 kBChecksumma SHA-512
75aa228350746b0e86210363c57b798ece033c2575b4d4847f67f75765a324b4e103ac97e9cae0ed67a4c4d527f81a31fcce08ad047894a644720db21a1da45c
Typ fulltextMimetyp application/pdf

Övriga länkar

URL

Person

Devinney, HannahBjörklund, JennyBjörklund, Henrik

Sök vidare i DiVA

Av författaren/redaktören
Devinney, HannahBjörklund, JennyBjörklund, Henrik
Av organisationen
Institutionen för datavetenskapUmeå centrum för genusstudier (UCGS)
Språkteknologi (språkvetenskaplig databehandling)Genusstudier

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 345 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 1298 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf