Viacjazyčný preklad v mierke: 10000 jazykových párov a viac
Microsoft sa chystá na hľadanie AI v mierke s vysokou ambíciou umožniť budúcej generácii skúseností s umelej inteligencia. The Microsoft Translator ZCode Tím spolupracuje s Microsoft Project Turing a Microsoft Research Asia s cieľom podporiť jazykovú a viacjazyčnú podporu v jadre tejto iniciatívy. Pokračujeme v posúvaní hraníc s viacjazyčnými modelmi na podporu rôznych jazykových scenárov v spoločnosti Microsoft. Minulý rok v lete sme oznámili náš veľký rozsah Viacjazyčná zmes experta model s DeepSpeed ktoré môžu prekonať jednotlivé veľké dvojlingválne modely. Nedávno najnovší model univerzálneho jazykového zastúpenia Turing (T-ULRv5), model vytvorený Microsoftom je opäť najmodernejším a v hornej časti Verejný prehľad XTREME v tom čase. Spoločnosť Microsoft nedávno oznámila najväčšiu Megatron-Turing NLG 530B model parametrov.
Výročná konferencia o strojovom preklade (aka WMT 2021) sa skončila minulý týždeň v krásnej Punta Cana v Dominikánskej republike. WMT združuje výskumníkov z celej oblasti strojového prekladu, priemyslu aj akademickej obce, aby sa zúčastnili na sérii spoločných úloh, z ktorých každá definuje referenčnú hodnotu v dôležitej oblasti strojového prekladu, aby posunula pole na nové hranice.
Tím Microsoft Translator ZCode v spolupráci s Turingovým tímom a Microsoft Research Asia súťažil v skladbe "Rozsiahly viacjazyčný preklad", ktorá pozostávala z úplnej úlohy prekladu všetkých 10 000 smerov v 101 jazykoch a dvoch malých úloh: jedna sa zamerala na 5 stredoeurópskych a juhoeurópskych jazykov a jedna na 5 jazykoch juhovýchodnej Ázie. Model Microsoft ZCode-DeltaLM vyhral všetky tri úlohy s obrovským náskokom, vrátane neuveriteľného 10+ bodového zisku nad modelom M2M100 vo veľkej úlohe hodnotenej na masívnych 10 000 jazykových pároch. (Zistenia spoločnej úlohy WMT 2021 o rozsiahlom viacjazyčnom strojovom preklade, Wenzek et al, WMT 2021).
Obrázok 1: Oficiálne výsledky (skóre BLEU) o úlohe Úplné a Malé úlohy1 na zdieľanej úlohe hromadného viacjazyčného prekladu WMT 2021
Prístup ZCode-DeltaLM
V tomto blogovom príspevku sa pozrime pod kapotu na víťazný model Microsoft ZCode-DeltaLM. Naším východiskovým bodom bola DeltaLM (DeltaLM: Predkvalifikácie kódovania-dekodéra pre generovanie jazykov a preklad rozšírením predškolených viacjazyčných kódovačov), najnovšia zo série masívne viacjazyčných predškolských jazykových modelov od spoločnosti Microsoft.
DeltaLM je model kódovača-dekodéra, ale namiesto tréningu od nuly je inicializovaný z predtým predškoleného najmodernejšieho modelu iba kódovača, konkrétne (TULRv3). Zatiaľ čo inicializácia kódovača je jednoduchá, dekodér je menej, pretože pridáva krížovú pozornosť na sebaobslužnú pozornosť kódovača. DeltaLM rieši tento problém novou prelínanou architektúrou, kde sa medzi vrstvami strieda sebapozora a krížová pozornosť, pričom sebapozora sa používa v nepárnych vrstvách a krížová pozornosť používaná v párne vrstvách. S týmto prelínaním sa štruktúra dekodéra zhoduje so kódovačom, a tak môže byť inicializovaná rovnakým spôsobom z TULRv3.
DeltaLM je rozšírená o ZCode výkonné viac úloh učenie: Viac úloh učenie pre viacjazyčný preklad neurónových strojov. Naše modely ukazujú, že kombinácia viacjazyčného a viacjazyčného vzdelávania môže výrazne zlepšiť školenie pre rozsiahle predškolené jazykové modely. Takáto viacjazyčná vzdelávacia paradigma využíva indukčnú zaujatosť a legalizáciu z niekoľkých úloh a jazykov súčasne na lepšie vykonávanie rôznych nadväzujúcich úloh. Používame prekladateľskú úlohu, denotizujeme úlohu automatického kódovania a úlohu poškodenia rozsahu prekladu, ako je znázornené na obrázku nižšie.
Vyhrať masívne viacjazyčnú prekladateľskú stopu
Vybudovať náš víťazný masívny viacjazyčný prekladateľský systém (Viacjazyčné systémy strojového prekladu od spoločnosti Microsoft pre zdieľanú úlohu WMT21), sme začali s zCode-DeltaLM a pridali sme niekoľko trikov.
Aplikujeme progresívne učenie, najprv trénujeme model s 24 vrstvami kódovača a 12 dekodérovými vrstvami, potom pokračujeme v tréningu s 12 pridanými vrstvami kódovača, čo vedie k hlbokému 36 vrstvovému kódovaču. Na pokrytie všetkých jazykových párov generujeme duálne pseudo-paralelné údaje, kde sú obe strany paralelných údajov syntetické, preložené modelom z angličtiny. Na generovanie syntetických údajov používame aj iteračný spätný preklad. Aplikujeme učenie učebných osnov, počnúc celými hlučnými údajmi o odbornej príprave a potom ich znižujeme na čistú podmnožinu. Prehodnotíme cieľ prekladu tak, aby sme uprednostňovali paralelné údaje pred spätným prekladom a dvojitými pseudo-paralelnými údajmi. Aplikujeme vzorkovanie teploty na vyváženie medzi jazykovými pármi. Pre každý jazykový pár si na základe množiny dev vyberáme, či uprednostňujeme priamy preklad alebo pivotný preklad prostredníctvom angličtiny.
Keď sme to všetko dali dokopy, vedeli sme, že máme úžasný masívny viacjazyčný systém, ale oficiálne výsledky slepého testovacieho setu prekonali naše očakávania. Dosiahli sme 2,5 až 9 BLEU pred ďalším konkurentom a 10 až 21 bodov BLEU pred základným modelom M2M-175. V dev teste sme porovnali s väčším modelom M2M-615, ktorý sme tiež porazili o 10 až 18 bodov.
Preklad: Univerzálna jazyková generácia
Aj keď sme nadšení z veľkého víťazstva na WMT 2021, čo je ešte vzrušujúcejšie, je to, že na rozdiel od ostatných konkurentov, náš model ZCode-DeltaLM nie je len prekladateľským modelom, ale skôr všeobecným predškoleným modelom jazyka kódovania a dekodéra, použiteľný pre všetky druhy výrobných úloh mimo prekladu. To naozaj umožňuje našim modelom vykonávať celkom dobré výsledky pri rôznych úlohách generácie viacjazyčného prirodzeného jazyka.
Dosiahli sme novú SOTA v mnohých populárnych výrobných úlohách od Referenčná hodnota GEM, vrátane Wikilingua (zhrnutie), zjednodušenia textu (WikiAuto) a štruktúry na text (WebNLG). Model DeltaLM-ZCode ďaleko prekonáva oveľa väčšie modely, ako je mT5 XL (3,7B), ktorý je tiež vyškolený na oveľa väčšie dáta. To demonštrovalo účinnosť a všestrannosť modelov, čo viedlo k silnému výkonu pri mnohých úlohách.
Obrázok 2. Výkon (skóre RL) ZCode-DeltaLM v úlohách súhrnu a zjednodušenia textu v referenčnej hodnote GEM
Pozerať sa dopredu
Viacjazyčný strojový preklad dosiahol bod, v ktorom funguje veľmi dobre, prekonáva bilingválne systémy v jazykoch s nízkymi aj vysokými zdrojmi. Ukázalo sa, že kombinácia modelov Expertov (MoE) je veľmi vhodná na rozšírenie takýchto modelov, ako je znázornené v GShard. Skúmame, ako efektívne škálovať takéto modely so zmesou odborníkov: Škálovateľné a efektívne školenie MoE pre viacjazyčné modely s viacerými modelmi. Modely MoE s masívnymi viacjazyčnými údajmi a tréningom viacerých úloh bez dozoru predstavujú pre takéto modely nepripravenú príležitosť poskytnúť skutočne univerzálne systémy, ktoré môžu tímu Microsoft Translator ďalej umožniť odstrániť jazykové bariéry na celom svete, ako aj podporiť rôzne úlohy generovania prirodzeného jazyka.
Poďakovanie
Radi by sme ocenili a poďakovali Francisco Guzmanovi - jeho tímu, ktorý zhromaždil masívne viacjazyčnú testovaciu súpravu FLORES a zorganizoval túto wmt trať s takým rozsiahlym hodnotením.