Flerspråkig översättning i stor skala: 10000 språkpar och därefter
Microsoft är på jakt efter AI i stor skala med hög ambition att möjliggöra nästa generations AI-upplevelser. Microsoft-översättaren ZCode teamet arbetar tillsammans med Microsoft Project Turing och Microsoft Research Asia för att främja språk- och flerspråkigt stöd i kärnan av detta initiativ. Vi fortsätter att tänja på gränserna för flerspråkiga modeller för att stödja olika språkscenarier i Microsoft. Förra sommaren tillkännagav vi vår storskaliga Flerspråkig blandning av expert modell med Djuphastighet som kan överträffa enskilda storskaliga tvåspråkiga modeller. Nyligen har den senaste modellen för representation av Turing-universella språk (T-ULRv5), är en Microsoft-skapad modell återigen den senaste tekniken och högst upp på Google XTREME offentlig topplista vid den tidpunkten. På senare tid tillkännagav Microsoft den största Megatron-Turing NLG 530B parametrar modell.
Den årliga konferensen om maskinöversättning (även känd som WMT 2021) avslutades förra veckan i vackra Punta Cana, Dominikanska republiken. WMT samlar forskare från hela maskinöversättningsområdet, både industrin och den akademiska världen, för att delta i en rad gemensamma uppgifter, var och en definiera ett riktmärke inom ett viktigt område av maskinöversättning för att driva fältet till nya gränser.
Microsoft Translator ZCode-teamet, som arbetade tillsammans med Turing-teamet och Microsoft Research Asia, tävlade i spåret "Storskalig flerspråkig översättning", som bestod av en fullständig uppgift att översätta mellan alla 10 000 riktningar på 101 språk och två små uppgifter: ett fokuserat på 5 central- och sydeuropeiska språk och ett på 5 sydostasiatiska språk. Microsoft ZCode-DeltaLM-modellen vann alla tre uppgifterna med enorma marginaler, inklusive en otrolig 10+ poängökning jämfört med M2M100-modellen i den stora uppgiften som utvärderades på en massiv 10 000 språkpar. (Resultaten av wmt 2021-den delade uppgiften om storskalig flerspråkig maskinöversättning, Wenzek et al, WMT 2021).
Figur 1: Officiella resultat (BLEU-poäng) om uppgiften full aktivitet och small task1 vid den storskaliga flerspråkiga översättningsuppgiften WMT 2021
ZCode-DeltaLM-metoden
I det här blogginlägget, låt oss ta en titt under huven på den vinnande Microsoft ZCode-DeltaLM-modellen. Vår utgångspunkt var DeltaLM (DeltaLM: Kodare-Avkodare Förutbildning för språkgenerering och översättning genom att utöka förtränade flerspråkiga kodare), den senaste i den allt kraftfullare serien av massivt flerspråkiga förtränade språkmodeller från Microsoft.
DeltaLM är en kodaravkodarmodell, men istället för att träna från grunden initieras den från en tidigare förtränad toppmodern kodarmodell, specifikt (TULRv3). Även om det är enkelt att initiera kodaren är avkodaren mindre så, eftersom den lägger till korsuppmärksamhet till kodarens självuppmärksamhet. DeltaLM löser detta problem med en ny interfolierade arkitektur, där självuppmärksamheten och korsuppmärksamheten växlar mellan lager, med den självuppmärksamhet som används i de udda lagren och korsuppmärksamhet som används i de jämna lagren. Med denna interfoliering matchar avkodarstrukturen kodaren, och så kan den också initieras på samma sätt från TULRv3.
DeltaLM förstärks av ZCode-kraftfull multitaskinlärning: Multi-task Learning för flerspråkig neural maskinöversättning. Våra modeller visar att kombinationen av multitask och flerspråkigt lärande avsevärt kan förbättra utbildningen för storskaliga förtränade språkmodeller. Ett sådant flerspråkigt inlärningsparadigm med flera tillfällen utnyttjar den induktiva partiskheten och regulariseringen från flera uppgifter och språk samtidigt för att prestera bättre på olika nedströmsuppgifter. Vi använder översättningsuppgift, denoising auto encoder uppgift och översättning span korruption uppgift som visas i figuren nedan.
Vinna det massivt flerspråkiga översättningsspåret
För att bygga vårt vinnande massivt flerspråkiga översättningssystem (Flerspråkiga maskinöversättningssystem från Microsoft för delad WMT21-uppgift), vi började med zCode-DeltaLM, och lade till några tricks.
Vi tillämpar progressiv inlärning, tränar först en modell med 24 kodarlager och 12 avkodarlager och fortsätter sedan träna med 12 tillagda kodarlager, vilket resulterar i en djup 36-lagerskodare. För att täcka alla språkpar genererar vi dubbel pseudo-parallella data där båda sidor av parallella data är syntetiska, översatta av modellen från engelska. Vi tillämpar också iterativ back-translation för att generera syntetiska data. Vi tillämpar läroplansinlärning, som börjar med hela bullriga träningsdata och sedan reducerar den till en ren delmängd. Vi omväger översättningsmålet för att gynna parallella data över data för bakåtöversättning och dubbel pseudo-parallelldata. Vi tillämpar temperaturprovtagning för att balansera mellan språkpar. För varje språkpar väljer vi, baserat på utvecklingsuppsättningen, om vi vill föredra direktöversättning eller pivotöversättning via engelska.
När vi satte ihop allt visste vi att vi hade ett fantastiskt massivt flerspråkigt system, men de officiella resultaten på blindtestuppsättningen överträffade våra förväntningar. Vi fick 2,5 till 9 BLEU före nästa konkurrent och 10 till 21 BLEU-poäng före baslinjemodellen M2M-175. På utvecklingstestet jämförde vi med den större M2M-615-modellen, som vi också slog med 10 till 18 poäng.
Bortom översättning: Universell språkgenerering
Även om vi är glada över den stora vinsten på WMT 2021, är det ännu mer spännande att till skillnad från de andra konkurrenterna är vår ZCode-DeltaLM-modell inte bara en översättningsmodell, utan snarare en allmän förtränad kodar-avkodarspråksmodell, användbar för alla typer av generationsuppgifter utöver översättning. Detta gör det verkligen möjligt för våra modeller att prestera ganska bra på olika flerspråkiga naturliga språkgenereringsuppgifter.
Vi har nått en ny SOTA i många populära generationsuppgifter från GEM Riktmärke, inklusive Wikilingua (sammanfattning), Textförenkling (WikiAuto) och struktur-till-text (WebNLG). DeltaLM-ZCode-modellen överträffar i stor utsträckning mycket större modeller som mT5 XL (3,7B) som också tränas på mycket större data också. Detta visade på modellernas effektivitet och mångsidighet, vilket ledde till stark prestanda för många uppgifter.
Figur 2. Prestanda (RL-poäng) för ZCode-DeltaLM på uppgifterna Sammanfattning och textförenkling i GEM-riktmärket
Blickar framåt
Flerspråkig maskinöversättning har nått en punkt där den fungerar mycket bra och överträffar tvåspråkiga system, på både låga och höga resursspråk. Blandning av experter (MoE) modeller har visat sig vara en mycket bra passform för att skala upp sådana modeller som har visats i GShard. Vi utforskar hur man effektivt kan skala sådana modeller med Blandning av experter: Skalbar och effektiv MoE-utbildning för flerspråkiga modeller med flera uppgifter. MoE-modeller med massiva flerspråkiga data och oövervakad multitaskutbildning ger en oförutsägbar möjlighet för sådana modeller att tillhandahålla verkligt universella system som ytterligare kan göra det möjligt för Microsoft Translator-teamet att eliminera språkbarriärer över hela världen, samt stödja en mängd olika uppgifter om naturlig språkgenerering.
Bekräftelser
Vi vill uppmärksamma och tacka Francisco Guzman & hans team som samlade in den massivt flerspråkiga FLORES-testuppsättningen och organiserade detta WMT-spår med en så storskalig utvärdering.