Flerspråklig oversettelse i skala: 10 000 språkpar og mer
Microsoft er på jakt etter AI på skala med høye ambisjoner om å muliggjøre neste generasjons AI-opplevelser. Microsoft Translator Z-kode teamet jobber sammen med Microsoft Project Turing og Microsoft Research Asia for å fremme språklig og flerspråklig støtte i kjernen av dette initiativet. Vi fortsetter å presse grenser med flerspråklige modeller for å støtte ulike språkscenarier på tvers av Microsoft. I fjor sommer annonserte vi vår store skala Flerspråklig blanding av ekspert modell med DeepSpeed som kan utkonkurrere individuelle tospråklige modeller i stor skala. Nylig har den siste Turing universelle språkrepresentasjonsmodellen (T-ULRv5), en Microsoft-skapt modell er igjen toppmoderne og på toppen av Google XTREME offentlig ledertavle på den tiden. Mer nylig kunngjorde Microsoft den største Megatron-Turing NLG 530B parametermodell.
Den årlige konferansen om maskinoversettelse (aka WMT 2021) ble avsluttet forrige uke i vakre Punta Cana, Den dominikanske republikk. WMT samler forskere fra hele maskinoversettelsesfeltet, både industri og akademia, for å delta i en rekke delte oppgaver, som hver definerer en målestokk på et viktig område innen maskinoversettelse for å presse feltet inn i nye grenser.
Microsoft Translator ZCode-teamet, som jobbet sammen med Turing-teamet og Microsoft Research Asia, konkurrerte i "Large-scale Multilingual Translation"-sporet, som besto av en full oppgave med å oversette mellom alle 10 000 veibeskrivelser på tvers av 101 språk, og to små oppgaver: En fokusert på 5 sentral- og søreuropeiske språk, og ett på 5 sørøstasiatiske språk. Microsoft ZCode-DeltaLM-modellen vant alle tre oppgavene med store marginer, inkludert en utrolig gevinst på 10+ poeng i forhold til M2M100-modellen i den store oppgaven som ble evaluert på hele 10 000 språkpar. (Funn av WMT 2021 Shared Task på storskala flerspråklig maskinoversettelse, Wenzek et al., WMT 2021).
Figur 1: Offisielle resultater (BLEU-score) for Full-Task og Small-Task1 ved den delte oppgaven WMT 2021 Large Scale Multilingual Translation
ZCode-DeltaLM-tilnærmingen
I dette blogginnlegget, la oss ta en titt under panseret på den vinnende Microsoft ZCode-DeltaLM-modellen. Utgangspunktet vårt var DeltaLM (DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders), den siste i den stadig kraftigere serien med massivt flerspråklige ferdigtrente språkmodeller fra Microsoft.
DeltaLM er en koder-dekoder-modell, men i stedet for å trene fra bunnen av, initialiseres den fra en tidligere forhåndstrent topp moderne koder-modell, spesifikt (TULRv3). Selv om initialisering av koderen er enkel, er dekoderen mindre, siden den legger kryssoppmerksomhet til koderens selvoppmerksomhet. DeltaLM løser dette problemet med en ny interleaved arkitektur, der selvoppmerksomhet og kryssoppmerksomhet veksler mellom lag, med selvoppmerksomhet brukt i de odde lagene og kryssoppmerksomhet brukt i de jevne lagene. Med denne interleavingen samsvarer dekoderstrukturen med koderen, og den kan derfor også initialiseres på samme måte fra TULRv3.
DeltaLM er forsterket av ZCode kraftig fleroppgavelæring: Fleroppgavelæring for flerspråklig nevral maskinoversettelse. Våre modeller viser at det å kombinere fleroppgave- og flerspråklig læring kan forbedre opplæringen for storskala forhåndstrente språkmodeller betydelig. Et slikt flerspråklig læringsparadigme for flere oppgaver utnytter den induktive skjevheten og regulariseringen fra flere oppgaver og språk samtidig for å yte bedre på ulike nedstrømsoppgaver. Vi bruker oversettelsesoppgave, denoising auto encoder-oppgave og oversettelsesspenn korrupsjonsoppgave som vist i figuren nedenfor.
Vinner det massivt flerspråklige oversettelsessporet
Å bygge vårt vinnende, massivt flerspråklige oversettelsessystem (Flerspråklige maskinoversettelsessystemer fra Microsoft for WMT21 Shared Task), startet vi med zCode-DeltaLM, og la til noen få triks.
Vi bruker progressiv læring, trener først en modell med 24 koderlag og 12 dekoderlag, og fortsetter deretter treningen med 12 ekstra koderlag, noe som resulterer i en dyp 36-lags koder. For å dekke alle språkpar genererer vi dual-pseudo-parallelle data der begge sider av parallelldataene er syntetiske, oversatt av modellen fra engelsk. Vi bruker også iterativ tilbakeoversettelse for å generere syntetiske data. Vi bruker læreplanlæring, starter med hele støyende treningsdata, og reduserer dem til en ren undergruppe. Vi vekter oversettelsesmålet på nytt for å favorisere parallelle data fremfor tilbakeoversettelse og dual-pseudo-parallelle data. Vi bruker temperatursampling for å balansere på tvers av språkpar. For hvert språkpar velger vi, basert på utviklersettet, om vi vil foretrekke direkte oversettelse eller pivotoversettelse gjennom engelsk.
Ved å sette alt sammen visste vi at vi hadde et utrolig, massivt flerspråklig system, men de offisielle resultatene på blindtestsettet overgikk forventningene våre. Vi scoret 2,5 til 9 BLEU foran neste konkurrent, og 10 til 21 BLEU-poeng foran M2M-175-modellen. På utviklertesten sammenlignet vi med den større M2M-615-modellen, som vi også slo med 10 til 18 poeng.
Beyond Translation: Universal Language Generation
Selv om vi er spente på den store gevinsten på WMT 2021, er det som er enda mer spennende at i motsetning til de andre konkurrentene, er vår ZCode-DeltaLM-modell ikke bare en oversettelsesmodell, men snarere en generell forhåndsopplært koder-dekoder språkmodell, brukbar for alle typer generasjonsoppgaver utover oversettelse. Dette gjør det virkelig mulig for modellene våre å yte ganske bra på ulike flerspråklige naturspråkgenereringsoppgaver.
Vi nådde en ny SOTA i mange populære generasjonsoppgaver fra GEM Benchmark, inkludert Wikilingua (oppsummering), Tekstforenkling (WikiAuto) og struktur-til-tekst (WebNLG). DeltaLM-ZCode-modellen utkonkurrerer mye større modeller som mT5 XL (3.7B) som også er trent på mye større data. Dette demonstrerte effektiviteten og allsidigheten til modellene som førte til sterk ytelse på tvers av mange oppgaver.
Figur 2. Ytelse (RL-score) til ZCode-DeltaLM på oppsummerings- og tekstforenklingsoppgavene i GEM-benchmark
Ser fremover
Flerspråklig maskinoversettelse har nådd et punkt hvor den yter veldig bra, og overgår tospråklige systemer, på både lav- og høyressursspråk. Blanding av eksperter (MoE)-modeller har vist seg å passe veldig godt til å skalere opp slike modeller som har blitt vist i GShard. Vi utforsker hvordan du effektivt skalerer slike modeller med Mixture of Experts: Skalerbar og effektiv MoE-opplæring for flerspråklige flerspråklige modeller. MoE-modeller med massive flerspråklige data og uovervåket fleroppgaveopplæring gir enestående mulighet for slike modeller til å tilby virkelig universelle systemer som ytterligere kan gjøre Microsoft Translator-teamet i stand til å eliminere språkbarrierer over hele verden, samt støtte en rekke naturlige språkgenereringsoppgaver.
Anerkjennelser
Vi vil gjerne takke Francisco Guzman og teamet hans som samlet det massivt flerspråklige FLORES-testsettet og organiserte dette WMT-sporet med en så stor skalaevaluering.