Přeskočit na hlavní obsah
Překladatel
Tato stránka byla automaticky přeložena službou překladu strojů společnosti Microsoft. Dozvědět se více

Blog aplikace Microsoft Translator

Vícejazyčný překlad ve velkém měřítku: 10000 jazykových párů a více

Microsoft je na cestě k Umělá inteligence ve velkém měřítku s vysokou ambicí umožnit novou generaci zkušeností s umělou ierou. Překladač Microsoft ZCode tým spolupracuje s Turing v Microsoft Projectu a Microsoft Research Asia s cílem rozvíjet jazykovou a vícejazyčnou podporu v jádru této iniciativy. Pokračujeme v posouvání hranic pomocí vícejazyčných modelů, abychom podpořili různé jazykové scénáře v rámci Microsoftu. Loni v létě jsme oznámili naše velké měřítko Vícejazyčná směs Expert model s Hluboká rychlost které mohou překonat jednotlivé velké dvojjazyčné modely. V poslední době nejnovější Turingův univerzální model reprezentace jazyka (T-ULRv5), model vytvořený společností Microsoft je opět nejmodernější a v horní části Google Veřejný žebříček XTREME v té době. Nedávno společnost Microsoft oznámila největší Megatron-Turing NLG 530B model parametrů.

Každoroční konference o strojovém překladu (aka WMT 2021) skončila minulý týden v krásné Punta Cana v Dominikánské republice. WMT sdružuje výzkumné pracovníky z celé oblasti strojového překladu, a to jak z průmyslu, tak z akademické obce, aby se podíleli na řadě společných úkolů, z nichž každý definuje měřítko v důležité oblasti strojového překladu, aby posunul pole na nové hranice.

Tým Microsoft Translator ZCode, spolupracující s týmem Turing a Microsoft Research Asia, soutěžil v soutěži "Large-scale Multilingual Translation", která se skládala z úplného úkolu překládání mezi všemi 10 000 směry ve 101 jazycích a dvou malých úkolů: jeden zaměřený na 5 jazyků střední a jižní Evropy a jeden na 5 jazyků jihovýchodní Asie. Model Microsoft ZCode-DeltaLM vyhrál všechny tři úkoly s obrovským náskokem, včetně neuvěřitelného zisku 10+ bodů oproti modelu M2M100 ve velkém úkolu hodnoceném na masivních 10 000 jazykových párech. (Zjištění sdílené úlohy WMT 2021 o rozsáhlém vícejazyčném strojovém překladu, Wenzek et al, WMT 2021).

Obrázek 1: Oficiální výsledky (skóre BLEU) u sdíleného úkolu Full-Task a Small-Task1 na sdíleném úkolu WMT 2021 Large Scale Multilingual Translation

Přístup ZCode-DeltaLM

V tomto blogovém příspěvku se podívejme pod kapotu na vítězný model Microsoft ZCode-DeltaLM. Naším výchozím bodem byla DeltaLM (DeltaLM: Předběžné školení kodér-dekodér pro generování a překlad jazyků rozšířením předem natrénovaných vícejazyčných kodérů), nejnovější ze stále výkonnější řady masivně vícejazyčných předtrénovaných jazykových modelů od společnosti Microsoft.


DeltaLM je model kodér-dekodér, ale místo trénování od nuly je inicializován z dříve předem natrénovaného nejmodernějšího modelu pouze kodéru, konkrétně (TULRv3). Zatímco inicializace kodéru je přímočará, dekodér je méně, protože přidává křížovou pozornost k vlastní pozornosti kodéru. DeltaLM řeší tento problém novou prokládanou architekturou, kde se mezi vrstvami střídá sebepozornost a křížová pozornost, přičemž pozornost na sebe sama se používá v lichých vrstvách a křížová pozornost se používá v sudých vrstvách. S tímto prokládáním se struktura dekodéru shoduje s kodérem, a proto může být také inicializována stejným způsobem z TULRv3.

DeltaLM je rozšířen o ZCode výkonné multitaskingové učení: Víceúčelové učení pro vícejazyčný neurální strojový překlad. Naše modely ukazují, že kombinace multitaskingu a vícejazyčného učení může výrazně zlepšit trénování rozsáhlých předtrénovaných jazykových modelů. Takové multitaskingové vícejazyčné učební paradigma využívá induktivní zkreslení a regularizaci z několika úkolů a jazyků současně, aby lépe fungovalo na různých navazujících úkolech. Používáme úlohu překladu, od denoizující úlohu automatického kodéru a úlohu poškození rozsahu překladu, jak je znázorněno na obrázku níže.

Vítězství v masivně vícejazyčné překladatelské skladbě

Vybudovat náš vítězný masivně vícejazyčný překladatelský systém (Vícejazyčné systémy strojového překladu od společnosti Microsoft pro sdílenou úlohu WMT21), začali jsme se zCode-DeltaLM a přidali několik triků.

Aplikujeme progresivní učení, nejprve trénujeme model s 24 vrstvami kodéru a 12 vrstvami dekodéru, pak pokračujeme v tréninku s 12 přidanými vrstvami kodéru, což vede k hlubokému 36 vrstvovému kodéru. Abychom pokryli všechny jazykové páry, generujeme duální-pseudo-paralelní data, kde obě strany paralelních dat jsou syntetické, přeložené modelem z angličtiny. Používáme také iterativní zpětný překlad pro generování syntetických dat. Aplikujeme učební osnovy, počínaje celými hlučnými tréninkovými daty a poté je redukujeme na čistou podmnožinu. Převážíme cíl překladu tak, aby upřednostňoval paralelní data před daty zpětného překladu a duálními pseudoelekre parallel. Aplikujeme vzorkování teploty pro vyvážení mezi jazykovými páry. Pro každou jazykovou dvojici si na základě vývojářské sady vybíráme, zda preferujeme přímý překlad nebo pivotní překlad přes angličtinu.

Když to všechno dáme dohromady, věděli jsme, že máme úžasný masivně vícejazyčný systém, ale oficiální výsledky na slepém testu předčily naše očekávání. Získali jsme 2,5 až 9 BODŮ BLEU před dalším konkurentem a 10 až 21 bodů BLEU před základním modelem M2M-175. Na vývojovém testu jsme porovnával s větším modelem M2M-615, který jsme také porazili o 10 až 18 bodů.

Beyond Translation: Univerzální generace jazyků

I když jsme nadšeni velkým vítězstvím na WMT 2021, ještě více vzrušující je, že na rozdíl od ostatních konkurentů není náš model ZCode-DeltaLM jen překladovým modelem, ale spíše obecným předem natrénovaným jazykovým modelem kodér-dekodér, použitelným pro všechny druhy generačních úkolů mimo překlad. To skutečně umožňuje našim modelům docela dobře fungovat při různých vícejazyčných úkolech generování přirozeného jazyka.

Dosáhli jsme nového SOTA v mnoha populárních generačních úkolech z GEM Benchmark, včetně Wikilingua (shrnutí), zjednodušení textu (WikiAuto) a struktury na text (WebNLG). Model DeltaLM-ZCode výrazně překonává mnohem větší modely, jako je mT5 XL (3.7B), který je také trénován na mnohem větších datech. To prokázalo efektivitu a všestrannost modelů, což vedlo k silnému výkonu v mnoha úkolech.

Obrázek 2. Výkon (skóre RL) ZCode-DeltaLM v úlohách Shrnutí a Zjednodušení textu v benchmarku GEM

Pohled do budoucna

Vícejazyčný strojový překlad dosáhl bodu, kdy funguje velmi dobře a překonává dvojjazyčné systémy, a to jak v jazycích s nízkými, tak s vysokými zdroji. Ukázalo se, že směs modelů odborníků (MoE) je velmi vhodná pro zvětšení takových modelů, jak bylo ukázáno v GShard. Zkoumáme, jak efektivně škálovat takové modely pomocí směsi odborníků: Škálovatelné a efektivní školení MŽP pro vícejazyčné modely s více úkoly. Modely MŽP s masivními vícejazyčnými daty a školením s více úkoly bez dohledu představují pro tyto modely nepředvídavou příležitost poskytnout skutečně univerzální systémy, které mohou týmu Microsoft Translator dále umožnit eliminovat jazykové bariéry po celém světě a také podporovat různé úlohy generování přirozeného jazyka.

Poděkování

Rádi bychom poděkovali Franciscu Guzmanovi a jeho týmu, kteří shromáždili masivně vícejazyčnou testovací sadu FLORES a zorganizovali tuto trať WMT s tak rozsáhlým hodnocením.