跳轉至主要內容
線上翻譯

微軟翻譯博客

大規模多語言翻譯:10000 個語言對及以上

微軟正在尋求 大規模 AI 雄心勃勃,致力於實現下一代 AI 體驗。微軟翻譯 ZCode 團隊正在與 微軟項目圖靈 和微軟亞洲研究院將推進語言和多語言支援,這是該計劃的核心。我們將繼續通過多語言模型推動前沿,以支持整個 Microsoft 的各種語言方案。去年夏天,我們宣佈了我們的大規模 專家的多語言混合 模型與 深速 可以勝過單個大型雙語模型。最近,最新的圖靈通用語言表示模型(T-ULRV5),微軟創建的模型再次成為最先進的,並處於Google的頂部。 XTREME 公共排行榜 當時。最近,微軟宣佈了最大的 兆創圖靈 NLG 530B 參數模型。

一年一度的機器翻譯會議(又名WMT 2021)上周在多明尼加共和國美麗的蓬塔卡納閉幕。WMT彙集了來自整個機器翻譯領域的研究人員,包括行業和學術界,參與一系列共享任務,每個任務都定義了機器翻譯重要領域的基準,以將該領域推向新的前沿。

Microsoft Translator ZCode團隊與Turing團隊和Microsoft Research Asia合作,參加了"大規模多語言翻譯"課程的競爭,其中包括在101種語言的所有10,000個方向之間進行翻譯的完整任務,以及兩個小任務:一個專注於5種中歐和南歐語言,一項專注於5種東南亞語言。Microsoft ZCode-DeltaLM模型以巨大的優勢贏得了所有三個任務,包括在10,000個語言對上評估的大型任務中,M2M100模型獲得了令人難以置信的10 +點增益。(WMT 2021 大規模多語言機器翻譯共同任務的發現,Wenzek等人,WMT 2021)。

圖 1:WMT 2021 大規模多語言翻譯共用任務中全任務和小任務的官方結果(BLEU 分)1

ZCode-DeltaLM 方法

在這篇博文中,讓我們來看看獲勝的Microsoft ZCode-DeltaLM模型。我們的起點是 DeltaLM (DeltaLM:通過增強預訓練的多語言編碼器,對語言生成和翻譯進行編碼器-解碼器預訓練),這是微軟日益強大的一系列大規模多語言預訓練語言模型中的最新一款。


DeltaLM 是一種編碼器-解碼器模型,但不是從頭開始訓練,而是從以前預先訓練的最先進的僅編碼器模型初始化的,具體而言(TULRv3).雖然初始化編碼器很簡單,但解碼器卻不那麼簡單,因為它增加了編碼器自我關注的交叉注意力。DeltaLM 通過新穎的交錯架構解決了這個問題,其中自我關注和交叉關注在層之間交替,自我關注在奇數層中使用,交叉關注在偶數層中使用。通過這種交錯,解碼器結構與編碼器相匹配,因此也可以以相同的方式從TULRv3初始化。

DeltaLM 通過 ZCode 強大的多任務學習功能進行了增強: 多語言神經機器翻譯的多任務學習.我們的模型表明,將多任務和多語言學習相結合可以顯著改善大規模預訓練語言模型的訓練。這種多任務多語言學習範式是同時利用來自多個任務和語言的歸納偏差和正則化,以更好地執行各種下游任務。我們正在使用翻譯任務,去噪自動編碼器任務和翻譯跨度損壞任務,如下圖所示。

贏得大規模多語言翻譯軌道

建立我們屢獲殊榮的大規模多語言翻譯系統(微軟用於WMT21共享任務的多語言機器翻譯系統),我們從 zCode-DeltaLM 開始,並添加了一些技巧。

我們應用漸進式學習,首先訓練具有24個編碼器層和12個解碼器層的模型,然後繼續使用12個添加的編碼器層進行訓練,從而產生深度36層編碼器。為了涵蓋所有語言對,我們生成雙偽並行數據,其中並行數據的兩側都是合成的,由模型從英語翻譯而來。我們還應用反覆運算反向轉換來生成合成數據。我們應用課程學習,從整個嘈雜的訓練數據開始,然後將其簡化為一個乾淨的子集。我們重新調整了轉換目標,以優先於並行數據,而不是反向翻譯和雙偽並行數據。我們應用溫度採樣來平衡語言對。對於每個語言對,我們根據開發集選擇是首選直接翻譯還是通過英語進行透視翻譯。

綜上所述,我們知道我們有一個驚人的大規模多語言系統,但盲測集的官方結果超出了我們的預期。我們領先下一個競爭對手2.5至9 BLEU,比基準M2M-175型號領先10至21 BLEU分。在開發測試中,我們與較大的M2M-615型號進行了比較,我們也將其擊敗了10到18分。

超越翻譯:通用語言生成

雖然我們對WMT 2021的重大勝利感到興奮,但更令人興奮的是,與其他競爭對手不同,我們的ZCode-DeltaLM模型不僅僅是一個翻譯模型,而是一個通用的預訓練編碼器 - 解碼器語言模型,可用於翻譯以外的各種生成任務。這確實使我們的模型能夠在各種多語言自然語言生成任務中表現出色。

我們在許多流行的生成任務中達到了新的SOTA, 創業板基準,包括Wikilingua(摘要),文本簡化(WikiAuto)和結構到文本(WebNLG)。DeltaLM-ZCode模型的性能遠遠優於更大的模型,例如mT5 XL(3.7B),它也在更大的數據上進行訓練。這證明瞭模型的效率和多功能性,從而在許多任務中實現了強大的性能。

圖 2.ZCode-DeltaLM 在 GEM 基準測試中匯總和文本簡化任務中的表現(RL 分數)

展望未來

多語言機器翻譯已經達到了一個點,即在低資源和高資源語言上都表現得非常好,超過了雙語系統。專家混合(MoE)模型已被證明非常適合擴展GShard中所示的模型。我們探索如何通過專家組合有效地擴展此類模型: 針對多任務多任務模型的可擴展且高效的MoE培訓.具有大量多語言數據和無監督多任務訓練的MoE模型為此類模型提供了前所未有的機會,可以提供真正的通用系統,從而進一步使 Microsoft Translator 團隊能夠消除世界各地的語言障礙,並支持各種自然語言生成任務。

確認

我們要感謝Francisco Guzman和他的團隊,他們收集了大量多語言的FLORES測試集,並通過如此大規模的評估組織了這個WMT賽道。