Genderové překlady Bing řeší předsudky v překladu
S potěšením oznamujeme, že ode dneška jsou k dispozici alternativní překlady mužského a ženského rodu pro překlady z angličtiny do španělštiny, francouzštiny nebo italštiny. Tuto novou funkci si můžete vyzkoušet v obou Hledání v Bing A Převaděč Bing vertikály.
V posledních několika letech došlo v oblasti strojového překladu (MT) k revoluci díky nástupu transformačních modelů, což vedlo k obrovskému zlepšení kvality. Modely optimalizované pro zachycení statistických vlastností dat získaných z reálného světa se však neúmyslně učí nebo dokonce posilují sociální předsudky, které se v těchto datech vyskytují.
Naše nejnovější verze je krokem ke snížení jednoho z těchto předsudků, konkrétně předsudku o pohlaví, který je v systémech MT rozšířený. Překladač Bing Translator vždy vytvořil pro vstupní větu jediný překlad, i když překlad mohl mít jiné varianty pohlaví včetně ženského a mužského. V souladu s Zásady odpovědné umělé inteligence společnosti Microsoft, chceme zajistit, abychom poskytovali správné alternativní překlady a byli vstřícnější ke všem pohlavím. V rámci této cesty je naším prvním krokem poskytnutí variant překladu v ženském a mužském rodě.
Pohlaví se v různých jazycích vyjadřuje různě. Například v angličtině může slovo právník označovat jak muže, tak ženu, ale ve španělštině, abogada by se vztahoval na právničku, zatímco abogado by se vztahoval na muže. Při nedostatku informací o rodu podstatného jména jako "právník" ve zdrojové větě se mohou modely MT uchýlit k výběru libovolného rodu pro podstatné jméno v cílovém jazyce. Často je toto libovolné přiřazení pohlaví v souladu se stereotypy, což udržuje škodlivé společenské předsudky (Stanovsky et al., 2019; Ciora et al., 2021) a vede k ne zcela přesným překladům.
V následujícím příkladu si můžete všimnout, že při překladu genderově neutrálních vět z angličtiny do španělštiny se přeložený text řídí stereotypní genderovou rolí, tj. právník je přeložen jako muž.
Vzhledem k tomu, že ve výchozí větě není žádný kontext, který by naznačoval pohlaví právníka, byl by platný překlad s předpokladem, že se jedná o právníka mužského nebo ženského pohlaví. Nyní Bing Translator vytváří překlady s ženským i mužským rodem.
Návrh systému
Snažili jsme se navrhnout náš systém tak, aby splňoval následující klíčová kritéria pro poskytování genderových alternativ:
- Varianty pro ženský a mužský rod by se měly lišit jen minimálně, s výjimkou těch, které jsou nutné pro vyjádření rodu.
- Chtěli jsme pokrýt širokou škálu vět, u nichž je možné použít více rodových alternativ.
- Chtěli jsme zajistit, aby překlady zachovávaly význam původní zdrojové věty.
Zjišťování nejednoznačnosti pohlaví
Abychom mohli přesně odhalit nejednoznačnost pohlaví ve zdrojovém textu, využíváme k analýze vstupů obsahujících animální podstatná jména koreferenční model. Pokud například daný vstupní text obsahuje rodově neutrální profesní slovo, chceme k němu poskytnout rodové alternativy pouze v případě, že jeho rod nelze určit na základě jiných informací ve větě. Např: Při překladu anglické věty "The lawyer met her driver at the hotel lobby." do francouzštiny můžeme určit, že právník je žena, zatímco pohlaví řidiče není známo.
Generování alternativního překladu
Pokud je zdrojová věta nejednoznačně rodově určena, zkoumáme výstup našeho překladatelského systému a rozhodujeme, zda je možná alternativní rodová interpretace. Pokud ano, přistoupíme k určení nejlepšího způsobu revize překladu. Začneme sestavením sady kandidátních cílových překladů přepsáním původního překladu. Uplatníme jazyková omezení založená na závislostních vztazích, abychom zajistili konzistenci navrhovaných alternativ, a vyřadíme chybné kandidáty.
V mnoha případech nám však i po uplatnění našich omezení zůstává více kandidátů na přepis alternativního překladu pro rod. Abychom určili nejlepší možnost, vyhodnotíme každý kandidátský přepis pomocí našeho překladového modelu. Využitím skutečnosti, že dobrý rodový přepis bude zároveň přesným překladem zdrojové věty, jsme schopni zajistit vysokou přesnost našeho konečného výstupu.
Využití spravovaných online koncových bodů v Azure Machine Learning
Alternativní funkce pro pohlaví v systému Bing je umístěna na adrese spravované koncové body online v Azure Machine Learning. Spravované online koncové body poskytují jednotné rozhraní pro vyvolání a správu nasazení modelů na počítači spravovaném společností Microsoft na klíč. Umožňují nám využívat výhody škálovatelných a spolehlivých koncových bodů, aniž bychom se museli starat o správu infrastruktury. Toto inferenční prostředí také umožňuje zpracovávat velké množství požadavků s nízkou latencí. Naše schopnost vytvářet a nasazovat službu gender debias s nejnovějšími rámci a technologiemi se výrazně zlepšila díky využití spravovaných inferenčních funkcí v Azure Machine Learning. Využitím těchto funkcí se nám podařilo udržet nízké COGS (Cost of Goods Sold) a zajistit přímý soulad se zásadami bezpečnosti a ochrany osobních údajů.
Jak můžete přispět?
Abychom usnadnili pokrok v oblasti snižování genderových zkreslení v MT, zveřejňujeme testovací korpus obsahující příklady překladu z angličtiny do španělštiny, francouzštiny a italštiny, které jsou jednoznačné z hlediska pohlaví. Každá anglická zdrojová věta je doprovázena několika překlady, které pokrývají všechny možné varianty pohlaví.
Náš testovací soubor je sestaven tak, aby byl náročný, morfologicky bohatý a jazykově rozmanitý. Tento korpus nám pomohl při vývoji. Byl vytvořen za pomoci dvojjazyčných lingvistů s významnými překladatelskými zkušenostmi. Vydáváme také technický dokument, který se podrobně zabývá testovacím korpusem a metodikou a nástroji pro vyhodnocení.
GATE: Soubor výzev pro genderově nejednoznačné příklady překladu - dokument
GATE: Sada výzev pro genderově nejednoznačné příklady překladu - testovací sada
Cesta vpřed
Cílem této práce je zlepšit kvalitu výstupů MT v případech nejednoznačného zdrojového rodu a také usnadnit vývoj lepších a inkluzivnějších nástrojů pro zpracování přirozeného jazyka (NLP) obecně. Naše první verze se zaměřuje na překlady z angličtiny do španělštiny, francouzštiny a italštiny. Do budoucna plánujeme rozšíření na nové jazykové páry a také pokrytí dalších scénářů a typů zkreslení.
Kredity:
Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.