"False"
Hoppa direkt till innehållet
printicon
Huvudmenyn dold.
Publicerad: 2024-04-12 Uppdaterad: 2024-04-29, 14:51

Hannah Devinney forskar om fördomsfull AI

NYHET Hannah Devinney, doktorand vid institutionen för datavetenskap Umeå centrum för genusstudier, har forskat kring hur sociala fördomar om kön och genus, inkludering av ickebinära, trans- och queer-personer samt queer avspeglas i språkteknologier. Den 18 april, 2024, försvarade hen sin doktorsavhandling med titeln Genus och representation: studier av social bias i språkteknologi.

Människor möter teknik för bearbetning av mänskligt språk (språkteknologi eller på engelska Natural Language Processing, NLP) varje dag, både i former som de ser (autokorrigering, översättningstjänster, sökresultat på t.ex Google) och det de inte ser (algoritmer för sociala medier, "föreslagen läsning" på nyhetssajter, spamfilter). Språkteknologi ligger också till grund för andra verktyg inom artificiell intelligens (AI) som sortering av CV:n eller godkännande av låneansökningar., beslut som kan ha stora väsentliga effekter på människors liv. I takt med att ChatGPT och andra stora språkmodeller blivit populära utsätts individer också i allt högre grad för maskingenererade texter.

Maskininlärningsmetoder, som ligger bakom många moderna språkteknologiverktyg, replikerar mönster i data, till exempelvis texter som genererats av människor, men dessa mönster är ofta oönskade och stereotypa och andra återspeglingar av mänskliga fördomar som finns både implicit och explicit i det språk utvecklare "visar" datorer när de tränar dessa system. Forskarvärlden kallar dessa mönster för "bias" när de förekommer i datorsystem.

Hannah Devinneys forskning fokuserar på sådana mönster när det gäller genus, särskilt men inte enbart på trans- och ickebinära föreställningar om genus, eftersom dessa grupper har ofta hamnat utanför diskussionen om "könsdiskriminering". I forskningen försöker Hannah att förstå hur de olika sätt på vilka människor behandlas av språkteknologi påverkas av genus, och hur detta relaterar till komplicerade sociala maktsystem, maktsystem som ofta återspeglas i och upprätthålls av språket.

Hannah försöker förstå problemet från tre håll: hur "genus" uppfattas och hur det definieras inom det forskningsfält som undersöker NLP-bias; hur "bias“ förekommer i datamängder som används för att träna språkmodeller; och hur genus framträder i resultatet från vissa av dessa tekniker. Hen försöker också hitta sätt att förbättra representationen för att motverka vissa av dessa fördomar.

Datamängder med flera biljarder ord

När Hannah tittar på språkdata i form av texter som nyhetsartiklar eller andra artiklar använder hen sig av blandade metoder, vilket innebär att hen kombinerar kvantitativa och kvalitativa metoder. Detta är nödvändigt eftersom de datamängder som används för att träna moderna språkteknologiverktyg är riktigt, riktigt stora, för stora för att analyseras kvalitativt.

– Språkdatat är miljarder eller biljoner ord i storlek, vilket innebär att även en mycket snabb läsare skulle ta hundratals år av att inte göra något annat än att läsa och sova för att ta sig igenom alla texter. Men samtidigt är "bias" ett väldigt komplicerat fenomen, så om vi bara tittar på det numeriskt kommer vi troligen inte riktigt förstå vad vi ser och dess konsekvenser, säger Hannah.

Ett exempel på blandade metoder som Hannah har utvecklat tillsammans med några av sina forskarkollegor är EQUIBL-metoden, Explore, Query, and Understand Implicit Bias in Language data (svensk översättning “Undersök, frågeställ, och förstå underförstådd bias i språkdata”). Modellen använder sig av en beräkningsmetod som kallas Topic Modeling (ämnesmodellering) som är ett slags filter för att identifiera mönster av associationer mellan ord i texterna.

– Vi har valt ut de delar av språkdatat som vi tycker är viktiga. Detta för att förstå hur kön representeras i dessa texter, och kvalitativt analysera en mycket mindre mängd information för att se hur fördomar faktiskt uppstår, snarare än att bara identifiera dess närvaro, säger hen.

Övervägande cisnormativ språkdata

De viktigaste temana i hens resultat är att forskning om språkteknologi, språkdata och själva språkteknologin är väldigt cisnormativ (vilket innebär att systemen antar att allas genus matchar det kön som de tilldelades vid födseln) och ofta är mycket stereotyp och begränsande. I språkdatat är kvinnor mer förknippade med hem, familj och relationella begrepp som "kommunikation" än män, som ofta behandlas som "standardpersonen". Transpersoner och ickebinära personer raderas ofta under processen (tidigare språkteknologisk forskning utelämnar ickebinära personer, de är inte representerade i en hel del av träningsdatat, och många verktyg kan inte ens känna igen eller konsekvent använda "nyare" ickebinära pronomen som hen på svenska) och när ickebinära personer används i svarsdata är det ofta i en stereotyp beskrivning.

En annan viktig slutsats är att fördomar är komplicerade och kulturellt beroende. Hannah fann till exempel att vissa mönster av "bias" skiljer sig åt i engelsk jämte svensk nyhetsdata - så att motverka denna typ av bias är svårt eftersom kultur, och vad vi forskare anser inte är "bias", alltid förändras, säger Hannah.

Det kan kännas överväldigande, men samtidigt tycker jag att det är en riktigt cool möjlighet att verkligen överväga vilka slags språkliga världar vi vill bygga och bo i.

Ny queera datamängder

– En av de stora utmaningarna var bristen på data som inkluderar ickebinära och transidentiteter. En viktig anledning till att många språkteknologiverktyg raderar ickebinära personer är att de inte är väl representerade i de typer av språkdata som används för att träna systemen, så denna utmaning är på sätt och vis en av de saker jag studerar, säger Hannah Devinney.

Under de olika fallstudierna i avhandlingen har hen både "förstärkt" befintliga datamängder genom att ändra meningar för att använda icke-binära pronomen. Till exempel byter hen ut "han är student" till "hen är student". Hannah har också samlat in nya datamängder genom att plocka webbinnehåll från queera nyhetssajter och diskussionsforum.

Riskerna och orättvisorna är inte nya

Just nu tycker Hannah att "bias" och "AI" diskuteras mycket, särskilt när teknikföretag försöker sälja stora system som "AI" eller "tänkande" snarare än verktyg som bara upprepar statistiskt sannolika strängar av ord.

Jag tror människor har rätt att vara oroliga för rättvisa och de risker som är förknippade med dessa tekniker.

Riskerna och orättvisorna är inte nya – språkteknologi har funnits under en lång tid – men omfattningen, uppmärksamheten och pengarna som förknippas med dem är extremt höga just nu, så den genomsnittliga personen är lite mer medveten om deras existens.

– Mitt arbete komplicerar hur vi som forskare och datavetare förstår "bias" (det är bra, eftersom bias är ett socialt fenomen, och de är av komplicerade till sin natur!) så att vi kan förstå några av nyanserna i hur språk, teknik och samhälle samverkar för att skapa ojämlikheter, samt förhoppningsvis arbeta för att motverka dem, berättar hen.

Hannah fortsätter arbeta inom akademin

– Jag kommer att börja som postdoktor med Tema Genus vid Linköping University i augusti, som är en del av Katherine Harrisons WASP-HS-projekt Att operationalisera etik för AI, berättar Hannah.

Hens del av projektet kommer att handla om queer, trans och ickebinär representation i syntetiska data.

Datum och tid för Hannah Devinneys disputation

Hannah Devinney försvarade sin avhandling med titeln Gender and Representation:
Investigations of Bias in Natural Language Processing

Svensk översättning: Genus och representation : studier av social bias i språkteknologi 
torsdagen den 18 april

2024 kl. 13:00, i MIT.A.121. Opponent är Christian Hardmeier (IT University of Copenhagen)


Länk till kalenderhändelse

Länk till avhandling i fulltext