A Bing nemek szerinti fordításai a fordításban tapasztalható előítéletek ellen küzdenek
Örömmel jelentjük be, hogy a mai naptól kezdve az angolról spanyolra, franciára vagy olaszra történő fordításkor férfi- és nőnemű alternatív fordítások is rendelkezésre állnak. Ezt az új funkciót kipróbálhatja mind a Bing-keresés És Bing-fordító függőlegesek.
Az elmúlt néhány évben a gépi fordítás (MT) területét forradalmasította a transzformációs modellek megjelenése, ami óriási minőségi javulást eredményezett. A valós világból gyűjtött adatok statisztikai tulajdonságainak megragadására optimalizált modellek azonban véletlenül megtanulják, sőt felerősítik az adatokban található társadalmi torzításokat.
Legújabb kiadásunk egy lépés az egyik ilyen torzítás, nevezetesen a nemek közötti torzítás csökkentése felé, amely az MT-rendszerekben elterjedt. A Bing Translator mindig egyetlen fordítást készített egy bemeneti mondathoz, még akkor is, ha a fordításoknak más nemű változataik is lehettek volna, beleértve a női és a férfi változatokra vonatkozó változatokat is. A A Microsoft felelős mesterséges intelligencia elvei, szeretnénk biztosítani, hogy helyes alternatív fordításokat nyújtsunk, és minden nem számára befogadóbbak legyünk. Ennek az útnak a részeként első lépésként női és férfi fordítási változatokat biztosítunk.
A nemek különböző nyelvekben különbözőképpen jelennek meg. Például az angolban az ügyvéd szó utalhat férfi vagy női személyre, de a spanyolban, abogada egy női ügyvédre utalna, míg abogado egy férfira utalna. Ha nincs információ az olyan főnév nemére vonatkozóan, mint az "ügyvéd" a forrásmondatban, az MT-modellek a célnyelvi főnév nemének önkényes kiválasztásához folyamodhatnak. Ezek az önkényes nemi hozzárendelések gyakran igazodnak a sztereotípiákhoz, állandósítva a káros társadalmi előítéleteket (Stanovsky et al., 2019; Ciora et al., 2021), és nem teljesen pontos fordításokhoz vezetnek.
Az alábbi példában észrevehető, hogy a nemsemleges mondatok angolról spanyolra történő fordítása során a lefordított szöveg a sztereotip nemi szerepeket követi, azaz az ügyvédet férfiként fordítjuk.
Mivel a forrásmondatban nincs olyan szövegkörnyezet, amely az ügyvéd nemére utalna, a fordítás készítése férfi vagy női ügyvédet feltételezve egyaránt érvényes lenne. Most a Bing Translator női és férfi alakú fordításokat is készít.
Rendszertervezés
Célunk az volt, hogy rendszerünket úgy tervezzük meg, hogy megfeleljen a nemek szerinti alternatívák biztosításának következő fő kritériumainak:
- A nőnemű és a hímnemű változatoknak minimális eltérésekkel kell rendelkezniük, kivéve azokat, amelyek a nemek közvetítéséhez szükségesek.
- Olyan mondatok széles skáláját akartuk lefedni, amelyekben több nemi alternatíva is lehetséges.
- Biztosítani akartuk, hogy a fordítások megőrizzék az eredeti forrásmondat jelentését.
A nemi kétértelműség felismerése
Annak érdekében, hogy pontosan felismerjük a nemi kétértelműséget a forrásszövegben, egy coreference modellt használunk az animált főneveket tartalmazó bemenetek elemzésére. Például, ha egy adott bemeneti szöveg nemsemleges szakszót tartalmaz, csak akkor akarunk nemi alternatívát adni számára, ha a neme nem határozható meg a mondatban található egyéb információk alapján. Például: Egy angol mondat "Az ügyvédnő a szálloda halljában találkozott a sofőrjével." francia nyelvre fordításakor megállapíthatjuk, hogy az ügyvédnő nő, míg a sofőr neme ismeretlen.
Alternatív fordítás generálása
Ha a forrásmondat nemi szempontból kétértelmű, megvizsgáljuk a fordítórendszerünk kimenetét, hogy eldöntsük, lehetséges-e egy alternatív nemi értelmezés. Ha igen, akkor meghatározzuk a fordítás felülvizsgálatának legjobb módját. Az eredeti fordítás átírásával kezdjük a célfordításjelöltek halmazának összeállítását. A javasolt alternatívák konzisztenciájának biztosítása érdekében függőségi kapcsolatokon alapuló nyelvi megkötéseket alkalmazunk, és a hibás jelölteket selejtezzük.
Sok esetben azonban még a megszorításaink alkalmazása után is több jelölt átírása marad a nemesített alternatív fordításnak. A legjobb lehetőség meghatározásához minden egyes jelöltet a fordítási modellünkkel történő pontozással értékelünk. Azzal, hogy kihasználjuk azt a tényt, hogy egy jó nemi átírás egyben a forrásmondat pontos fordítása is, biztosítani tudjuk a végső kimenet nagy pontosságát.
A felügyelt online végpontok kihasználása az Azure Machine Learningben
A Bing nemek szerinti alternatív funkciót a Bing oldalon találja meg. kezelt online végpontok az Azure Machine Learning szolgáltatásban. A menedzselt online végpontok egységes felületet biztosítanak a modellek Microsoft által menedzselt számítási rendszereken történő telepítések kulcsrakészen történő meghívásához és kezeléséhez. Lehetővé teszik, hogy kihasználjuk a skálázható és megbízható végpontok előnyeit anélkül, hogy az infrastruktúra kezelésével kellene foglalkoznunk. Ez a következtetési környezet nagyszámú kérés feldolgozását is lehetővé teszi alacsony késleltetéssel. Az Azure Machine Learning menedzselt következtetési funkcióinak használatával jelentősen javult a képességünk a gender debias szolgáltatás létrehozására és telepítésére a legújabb keretrendszerekkel és technológiákkal. E funkciók kihasználásával alacsony szinten tudtuk tartani a COGS-t (eladott áruk költségét), és biztosítani tudtuk az egyszerű biztonsági és adatvédelmi megfelelőséget.
Hogyan járulhat hozzá?
A nemi előítéletek csökkentése terén elért eredmények elősegítése érdekében egy olyan tesztkorpuszt teszünk közzé, amely angolról spanyolra, franciára és olaszra történő, nemi szempontból egyértelmű fordítási példákat tartalmaz. Minden egyes angol forrásmondathoz több fordítás tartozik, amelyek minden lehetséges nemváltozatot lefednek.
Tesztkészletünket úgy állítottuk össze, hogy kihívást jelentsen, morfológiailag gazdag és nyelvileg változatos legyen. Ez a korpusz fontos szerepet játszott a fejlesztési folyamatunkban. Egy jelentős fordítási tapasztalattal rendelkező kétnyelvű nyelvész segítségével alakítottuk ki. Egy technikai dokumentumot is kiadunk, amely részletesen tárgyalja a tesztkorpuszt, valamint az értékelés módszertanát és eszközeit.
GATE: Kihívás a nemek közötti különbségtételes fordítási példákhoz - Paper
GATE: Kihíváskészlet a nemi megkülönböztetés nélküli fordítási példákhoz - Tesztkészlet
Előre vezető út
E munkánk célja, hogy javítsuk az MT-kimenet minőségét a nem egyértelmű forrásnyelvi nemek esetében, valamint általában véve elősegítsük a jobb és inkluzívabb természetes nyelvi feldolgozó (NLP) eszközök fejlesztését. Első kiadásunk az angolról spanyolra, franciára és olaszra történő fordításra összpontosít. Tervezzük, hogy a jövőben újabb nyelvpárokkal bővítjük, valamint további forgatókönyvekre és torzítások típusaira is kitérünk.
Hitelek:
Ranjita Naik, Spencer Rarrick, Sundar Poudel, Varun Mathur, Jeshwanth Kumar Chandrala, Charan Mohan, Lee Schwartz, Steven Nguyen, Amit Bhagwat, Vishal Chowdhary.