Online oversættere er sexistiske

I artiklen Online translators are sexist – here’s how we gave them a little gender sensitivity training fra internetmagasinet The Conversation fortæller to forskere om, hvordan de trænede onlineoversættere til at blive mindre sexistiske. Techst har fået lov til at oversætte og bringe artiklen.

Online oversættelsesværktøjer har hjulpet os med at lære nye sprog, kommunikere på tværs af sproglige grænser og se udenlandske websteder på vores modersmål. Men den kunstige intelligens (AI) bag dem er langt fra perfekt, for det meste kopierer de fordomme, der findes i et sprog eller et samfund, frem for at afvise dem.

Stefanie Ullmann, Postdoctoral Research Associate, University of Cambridge

Danielle Saunders, Research Student, Department of Engineering, University of Cambridge

Sådanne værktøjer er især sårbare over for kønsstereotyper, fordi nogle sprog (såsom engelsk) ikke har tendens til kønsnavneord, mens andre (såsom tysk) har det. Når der oversættes fra engelsk til tysk, skal oversættelsesværktøjer bestemme, hvilket køn der skal gives til et engelsk ord som ’cleaner’ (rengøringsassistent red.). Helt generelt bekræfter værktøjerne stereotypen og vælger at ordet skal være hunkøn ord på tysk.

Fordomme er menneskelige: de er en del af, hvem vi er. Men når de ikke udfordres, kan der opstå bias i form af konkrete negative holdninger til andre. Men vores team har fundet en måde at omskole de kunstige intelligenser, hvor vi med målrettet træning hjælper dem med at undgå kønsstereotyper. Vores metode kunne bruges inden for andre områder af AI til at hjælpe teknologien med at afvise, snarere end at kopiere, skævheder i samfundet.

Algoritmer med fordomme

Til deres skaberes forfærdelse udvikler AI-algoritmer ofte racistiske eller sexistiske træk. Google Translate er blevet beskyldt for at kønsspecifikke stereotyper fx når dens oversættelser forudsætter, at alle læger er mænd, og alle sygeplejersker er kvinder. Og siden da har AI-sproggeneratoren GPT-3 – som skrev en hel artikel til Guardian i 2020 – for nylig vist, at den også er chokerende god til at producere skadeligt indhold og misinformation.

Stefanie Ullmann og Danielle Saunders illustrerer deres artikel med dette tweet fra Dora Vargha, der gør opmærksom på, at ungarsk ikke skelner mellem køn. Alligevel oversætter Google Translate hendes sætninger på en klart sexistisk måde: Hun er smuk. Han er klog. Han læser. Hun vasker op. Han bygger Hun syr. Osv.

Disse AI-fejl er ikke nødvendigvis deres skabers skyld. Akademikere og aktivister henledte for nylig opmærksomhed på kønsfordomme i Oxford English Dictionary, hvor sexistiske synonymer for ’kvinde’ – såsom ’tæve’ eller ’tjenestepige’ – viser, hvordan selv en konstant revideret, akademisk redigeret ordbog kan indeholde fordomme, der forstærker stereotyper og opretholder hverdagens sexisme.

AI lærer fordomme, fordi de ikke er bygget i et vakuum: de lærer, hvordan man tænker og handler ved at læse, analysere og kategorisere eksisterende data – som dem, der findes i Oxford English Dictionary. Når det handler om at bruge kunstig intelligens til oversættelser, udsætter vi dens algoritme for milliarder af ord med tekstdata og beder den om at genkende og lære af de mønstre, den registrerer. Vi kalder denne proces maskinlæring, og undervejs læres fordomme på samme måde som grammatik og syntaks.

Ideelt set indeholder de tekstdata, vi viser AI, ikke bias. Men der er en løbende tendens til at bygge stadig større systemer, der er trænet på stadigt voksende datasæt. Vi taler hundrede milliarder ord. De fås fra internettet ved at bruge ikke-diskriminerende tekstindsamlende værktøjer som Common Crawl og WebText2, som drager hen over nettet og indsamler hvert eneste ord, de møder.

Det resulterer i så storemængder af date, at intet menneske er i stand til at vide, hvad der er i disse datasæt. Men vi ved, at noget af det kommer fra platforme som Reddit, som har skabt overskrifter for at bringe stødende, falske eller konspiratoriske oplysninger i brugernes indlæg.

Nye oversættelser

I vores forskning ønskede vi at finde en måde at imødegå bias inden for tekstmæssige datasæt hentet fra internettet. I vores eksperimenter brugte vi en tilfældigt valgt del af et eksisterende engelsk-tysk korpus (et udvalg af tekst), der oprindeligt indeholdt 17,2 millioner sætninger – halvdelen på engelsk, halvdelen på tysk.

Som vi har fremhævet, har tysk kønsformer for navneord (læge kan være ’der Arzt’ for mand, ’die Ärztin’ for kvinde), hvor vi på engelsk ikke kender disse navneord (med nogle omstridte undtagelser som ’skuespiller’ og ’skuespillerinde’).

Vores analyse af disse data afslørede klare kønsspecifikke fordomme. For eksempel fandt vi, at den maskuline form for ingeniør på tysk (der Ingenieur) var 75 gange mere almindelig end dens feminine modstykke (die Ingenieurin). Et oversættelsesværktøj, der er trænet på disse data, vil uundgåeligt gentage denne bias og oversætte ’ingeniør’ til den mandlige ’der Ingenieur’. Så hvad kan der gøres for at undgå eller afbøde det?

At overkomme fordomme

Et tilsyneladende enkelt svar er at ’balancere’ korpusset, før man beder computere om at lære af det. Måske kan man ved fx at tilføje flere kvindelige ingeniører til korpusset forhindrer et oversættelsessystem i at antage, at alle ingeniører er mænd.

Desværre er der problemer med denne tilgang. Oversættelsesværktøjer trænes i dage på milliarder af ord. Det er muligt at omskole dem ved at ændre ordets køn, men det er ineffektivt, dyrt og kompliceret. Det er især udfordrende at justere køn på sprog som tysk, fordi flere ord i en sætning muligvis skal ændres for at afspejle kønsændringen, så det giver grammatisk mening.

I stedet for denne besværlige kønsbalancering besluttede vi at omskole eksisterende oversættelsessystemer med målrettede lektioner. Når vi opdagede fordomme i eksisterende værktøjer, besluttede vi at omskole dem med nye, mindre datasæt – lidt som en eftermiddag med ligestillingsøvelser på arbejdspladsen.

Denne tilgang tager kun en brøkdel af den tid og de ressourcer, der skal til for at træne modeller fra bunden. Vi kunne nøjes med at bruge et par hundrede udvalgte oversættelseseksempler – i stedet for millioner – til at justere adfærden hos oversættelses-AI på en målrettet måde. Når vi testede kønsrelaterede erhverv i oversættelser – som vi havde gjort med ’ingeniører’ – var nøjagtigheden efter tilpasning blevet omkring ni gange højere end ved den ’afbalancerede’ omskolingstilgang.

I vores forskning ønskede vi at vise, at tackling af skjulte fordomme i enorme datasæt ikke behøver at betyde omhyggelig tilpasning af millioner af træningseksempler, en opgave, der risikerer at blive afvist som umulig. I stedet kan bias fra data fjernes, hvis man er målrettet – en viden, som andre AI-forskere kan anvende i deres eget arbejde.

Artiklen er oversat af Lisbeth Lyngse

Du kan finde den originale artikel her

Denne uge:

Online oversættere er sexistiske

I artiklen Online translators are sexist – here’s how we gave them a little gender sensitivity training fra internetmagasinet The Conversation fortæller to forskere om, hvordan de trænede onlineoversættere til at blive mindre sexistiske. Techst har fået lov til at oversætte og bringe artiklen.

Online oversættelsesværktøjer har hjulpet os med at lære nye sprog, kommunikere på tværs af sproglige grænser og se udenlandske websteder på vores modersmål. Men den kunstige intelligens (AI) bag dem er langt fra perfekt, for det meste kopierer de fordomme, der findes i et sprog eller et samfund, frem for at afvise dem.

Stefanie Ullmann, Postdoctoral Research Associate, University of Cambridge

Danielle Saunders, Research Student, Department of Engineering, University of Cambridge

Sådanne værktøjer er især sårbare over for kønsstereotyper, fordi nogle sprog (såsom engelsk) ikke har tendens til kønsnavneord, mens andre (såsom tysk) har det. Når der oversættes fra engelsk til tysk, skal oversættelsesværktøjer bestemme, hvilket køn der skal gives til et engelsk ord som ’cleaner’ (rengøringsassistent red.). Helt generelt bekræfter værktøjerne stereotypen og vælger at ordet skal være hunkøn ord på tysk.

Fordomme er menneskelige: de er en del af, hvem vi er. Men når de ikke udfordres, kan der opstå bias i form af konkrete negative holdninger til andre. Men vores team har fundet en måde at omskole de kunstige intelligenser, hvor vi med målrettet træning hjælper dem med at undgå kønsstereotyper. Vores metode kunne bruges inden for andre områder af AI til at hjælpe teknologien med at afvise, snarere end at kopiere, skævheder i samfundet.

Algoritmer med fordomme

Til deres skaberes forfærdelse udvikler AI-algoritmer ofte racistiske eller sexistiske træk. Google Translate er blevet beskyldt for at kønsspecifikke stereotyper fx når dens oversættelser forudsætter, at alle læger er mænd, og alle sygeplejersker er kvinder. Og siden da har AI-sproggeneratoren GPT-3 – som skrev en hel artikel til Guardian i 2020 – for nylig vist, at den også er chokerende god til at producere skadeligt indhold og misinformation.

Stefanie Ullmann og Danielle Saunders illustrerer deres artikel med dette tweet fra Dora Vargha, der gør opmærksom på, at ungarsk ikke skelner mellem køn. Alligevel oversætter Google Translate hendes sætninger på en klart sexistisk måde: Hun er smuk. Han er klog. Han læser. Hun vasker op. Han bygger Hun syr. Osv.

Disse AI-fejl er ikke nødvendigvis deres skabers skyld. Akademikere og aktivister henledte for nylig opmærksomhed på kønsfordomme i Oxford English Dictionary, hvor sexistiske synonymer for ’kvinde’ – såsom ’tæve’ eller ’tjenestepige’ – viser, hvordan selv en konstant revideret, akademisk redigeret ordbog kan indeholde fordomme, der forstærker stereotyper og opretholder hverdagens sexisme.

AI lærer fordomme, fordi de ikke er bygget i et vakuum: de lærer, hvordan man tænker og handler ved at læse, analysere og kategorisere eksisterende data – som dem, der findes i Oxford English Dictionary. Når det handler om at bruge kunstig intelligens til oversættelser, udsætter vi dens algoritme for milliarder af ord med tekstdata og beder den om at genkende og lære af de mønstre, den registrerer. Vi kalder denne proces maskinlæring, og undervejs læres fordomme på samme måde som grammatik og syntaks.

Ideelt set indeholder de tekstdata, vi viser AI, ikke bias. Men der er en løbende tendens til at bygge stadig større systemer, der er trænet på stadigt voksende datasæt. Vi taler hundrede milliarder ord. De fås fra internettet ved at bruge ikke-diskriminerende tekstindsamlende værktøjer som Common Crawl og WebText2, som drager hen over nettet og indsamler hvert eneste ord, de møder.

Det resulterer i så storemængder af date, at intet menneske er i stand til at vide, hvad der er i disse datasæt. Men vi ved, at noget af det kommer fra platforme som Reddit, som har skabt overskrifter for at bringe stødende, falske eller konspiratoriske oplysninger i brugernes indlæg.

Nye oversættelser

I vores forskning ønskede vi at finde en måde at imødegå bias inden for tekstmæssige datasæt hentet fra internettet. I vores eksperimenter brugte vi en tilfældigt valgt del af et eksisterende engelsk-tysk korpus (et udvalg af tekst), der oprindeligt indeholdt 17,2 millioner sætninger – halvdelen på engelsk, halvdelen på tysk.

Som vi har fremhævet, har tysk kønsformer for navneord (læge kan være ’der Arzt’ for mand, ’die Ärztin’ for kvinde), hvor vi på engelsk ikke kender disse navneord (med nogle omstridte undtagelser som ’skuespiller’ og ’skuespillerinde’).

Vores analyse af disse data afslørede klare kønsspecifikke fordomme. For eksempel fandt vi, at den maskuline form for ingeniør på tysk (der Ingenieur) var 75 gange mere almindelig end dens feminine modstykke (die Ingenieurin). Et oversættelsesværktøj, der er trænet på disse data, vil uundgåeligt gentage denne bias og oversætte ’ingeniør’ til den mandlige ’der Ingenieur’. Så hvad kan der gøres for at undgå eller afbøde det?

At overkomme fordomme

Et tilsyneladende enkelt svar er at ’balancere’ korpusset, før man beder computere om at lære af det. Måske kan man ved fx at tilføje flere kvindelige ingeniører til korpusset forhindrer et oversættelsessystem i at antage, at alle ingeniører er mænd.

Desværre er der problemer med denne tilgang. Oversættelsesværktøjer trænes i dage på milliarder af ord. Det er muligt at omskole dem ved at ændre ordets køn, men det er ineffektivt, dyrt og kompliceret. Det er især udfordrende at justere køn på sprog som tysk, fordi flere ord i en sætning muligvis skal ændres for at afspejle kønsændringen, så det giver grammatisk mening.

I stedet for denne besværlige kønsbalancering besluttede vi at omskole eksisterende oversættelsessystemer med målrettede lektioner. Når vi opdagede fordomme i eksisterende værktøjer, besluttede vi at omskole dem med nye, mindre datasæt – lidt som en eftermiddag med ligestillingsøvelser på arbejdspladsen.

Denne tilgang tager kun en brøkdel af den tid og de ressourcer, der skal til for at træne modeller fra bunden. Vi kunne nøjes med at bruge et par hundrede udvalgte oversættelseseksempler – i stedet for millioner – til at justere adfærden hos oversættelses-AI på en målrettet måde. Når vi testede kønsrelaterede erhverv i oversættelser – som vi havde gjort med ’ingeniører’ – var nøjagtigheden efter tilpasning blevet omkring ni gange højere end ved den ’afbalancerede’ omskolingstilgang.

I vores forskning ønskede vi at vise, at tackling af skjulte fordomme i enorme datasæt ikke behøver at betyde omhyggelig tilpasning af millioner af træningseksempler, en opgave, der risikerer at blive afvist som umulig. I stedet kan bias fra data fjernes, hvis man er målrettet – en viden, som andre AI-forskere kan anvende i deres eget arbejde.

Artiklen er oversat af Lisbeth Lyngse

Du kan finde den originale artikel her

Log ind

Opret kundekonto

Dine personlige data vil blive anvendt til at understøtte din brugeroplevelse,, til at administrere adgang til din konto, og til andre formål, som er beskrevet i vores persondatapolitik.

Ja tak, jeg vil gerne have et gratis prøveabonnement og adgang til alle artikler

Enkelt abonnement



Gruppeabonnement



Gavekort