Dịch đa ngôn ngữ ở quy mô: 10000 cặp ngôn ngữ và hơn thế nữa
Microsoft đang tìm kiếm AI ở quy mô với tham vọng cao để cho phép thế hệ trải nghiệm AI tiếp theo. Dịch giả Microsoft ZCode Nhóm đang làm việc cùng với Microsoft Project Turing và Microsoft Research Asia để thúc đẩy ngôn ngữ và hỗ trợ đa ngôn ngữ ở cốt lõi của sáng kiến này. Chúng tôi tiếp tục thúc đẩy biên giới với các mô hình Đa ngôn ngữ để hỗ trợ các kịch bản ngôn ngữ khác nhau trên khắp Microsoft. Mùa hè năm ngoái, chúng tôi đã công bố quy mô lớn của chúng tôi Hỗn hợp đa ngôn ngữ của chuyên gia mô hình với DeepSpeed có thể vượt trội hơn các mô hình hai ngôn ngữ quy mô lớn riêng lẻ. Gần đây, mô hình đại diện ngôn ngữ phổ quát Turing mới nhất (T-ULRv5), một mô hình do Microsoft tạo ra một lần nữa là nhà nước của nghệ thuật và đứng đầu Google Bảng xếp hạng công cộng XTREME vào thời điểm đó. Gần đây, Microsoft đã công bố công bố lớn nhất Megatron-Turing NLG 530B mô hình tham số.
Hội nghị thường niên về dịch máy (còn gọi là WMT 2021) đã kết thúc vào tuần trước tại Punta Cana xinh đẹp, Cộng hòa Dominica. WMT tập hợp các nhà nghiên cứu từ khắp lĩnh vực Dịch máy, cả ngành công nghiệp và học viện, để tham gia vào một loạt các nhiệm vụ được chia sẻ, mỗi nhiệm vụ xác định một điểm chuẩn trong một lĩnh vực dịch máy quan trọng để đẩy lĩnh vực này vào các biên giới mới.
Nhóm Microsoft Translator ZCode, làm việc cùng với nhóm Turing và Microsoft Research Asia, đã cạnh tranh trong ca khúc "Dịch đa ngôn ngữ quy mô lớn", bao gồm toàn bộ nhiệm vụ dịch giữa tất cả 10.000 hướng trên 101 ngôn ngữ và hai nhiệm vụ nhỏ: Một tập trung vào 5 ngôn ngữ Trung và Nam Âu và một trên 5 ngôn ngữ Đông Nam Á. Mô hình Microsoft ZCode-DeltaLM đã giành được cả ba nhiệm vụ với lợi nhuận khổng lồ, bao gồm mức tăng 10 điểm đáng kinh ngạc so với mô hình M2M100 trong nhiệm vụ lớn được đánh giá trên 10.000 cặp ngôn ngữ khổng lồ. (Những phát hiện của WMT 2021 Chia sẻ Nhiệm vụ về dịch máy đa ngôn ngữ quy mô lớn, Wenzek et al, WMT 2021).
Biểu đồ 1: Kết quả chính thức (điểm BLEU) về Nhiệm vụ đầy đủ và Nhiệm vụ nhỏ1 tại WMT 2021 Nhiệm vụ được chia sẻ đa ngôn ngữ
Cách tiếp cận ZCode-DeltaLM
Trong bài đăng trên blog này, chúng ta hãy xem dưới mui xe tại mô hình Microsoft ZCode-DeltaLM chiến thắng. Điểm khởi đầu của chúng tôi là DeltaLM (DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation bằng cách tăng cường bộ mã hóa đa ngôn ngữ được đào tạo sẵn), mới nhất trong loạt ngày càng mạnh mẽ của các mô hình ngôn ngữ được đào tạo trước đa ngôn ngữ ồ ạt từ Microsoft.
DeltaLM là một mô hình bộ mã hóa giải mã, nhưng thay vì đào tạo từ đầu, nó được khởi tạo từ một mô hình chỉ dành cho bộ mã hóa hiện đại được đào tạo trước đó, cụ thể là (TULRv3). Mặc dù khởi tạo bộ mã hóa rất đơn giản, bộ giải mã ít hơn, vì nó thêm sự chú ý chéo vào sự tự chú ý của bộ mã hóa. DeltaLM giải quyết vấn đề này bằng một kiến trúc xen kẽ mới lạ, trong đó sự tự chú ý và chú ý chéo xen kẽ giữa các lớp, với sự tự chú ý được sử dụng trong các lớp lẻ và sự chú ý chéo được sử dụng trong các lớp chẵn. Với sự xen kẽ này, cấu trúc bộ giải mã phù hợp với bộ mã hóa, và do đó nó cũng có thể được khởi tạo theo cách tương tự từ TULRv3.
DeltaLM được tăng cường bởi ZCode học tập đa nhiệm mạnh mẽ: Học tập đa tác vụ cho dịch máy thần kinh đa ngôn ngữ. Các mô hình của chúng tôi cho thấy rằng kết hợp học tập đa ngôn ngữ và đa ngôn ngữ có thể cải thiện đáng kể đào tạo cho các mô hình ngôn ngữ được đào tạo trước quy mô lớn. Mô hình học tập đa ngôn ngữ như vậy là tận dụng sự thiên vị và thường xuyên hóa quy nạp từ một số nhiệm vụ và ngôn ngữ cùng một lúc để thực hiện tốt hơn các nhiệm vụ hạ nguồn khác nhau. Chúng tôi đang sử dụng nhiệm vụ dịch thuật, denoising nhiệm vụ mã hóa tự động và nhiệm vụ tham nhũng nhịp dịch như được hiển thị trong hình dưới đây.
Chiến thắng ca khúc dịch thuật đa ngôn ngữ khổng lồ
Để xây dựng hệ thống dịch thuật đa ngôn ngữ chiến thắng của chúng tôi (Hệ thống dịch máy đa ngôn ngữ từ Microsoft cho WMT21 Tác vụ chia sẻ), chúng tôi bắt đầu với zCode-DeltaLM và thêm một vài thủ thuật.
Chúng tôi áp dụng học tập tiến bộ, đầu tiên đào tạo một mô hình với 24 lớp mã hóa và 12 lớp giải mã, sau đó tiếp tục đào tạo với 12 lớp bộ mã hóa bổ sung, dẫn đến bộ mã hóa 36 lớp sâu. Để bao gồm tất cả các cặp ngôn ngữ, chúng tôi tạo ra dữ liệu song song kép, trong đó cả hai mặt của dữ liệu song song là tổng hợp, được dịch bởi mô hình từ tiếng Anh. Chúng tôi cũng áp dụng dịch ngược lặp đi lặp lại để tạo dữ liệu tổng hợp. Chúng tôi áp dụng học tập chương trình giảng dạy, bắt đầu với toàn bộ dữ liệu đào tạo ồn ào, sau đó giảm nó thành một tập hợp con sạch sẽ. Chúng tôi cân nhắc lại mục tiêu dịch thuật để ủng hộ dữ liệu song song hơn dữ liệu song song và giả kép. Chúng tôi áp dụng lấy mẫu nhiệt độ để cân bằng giữa các cặp ngôn ngữ. Đối với mỗi cặp ngôn ngữ, chúng tôi chọn, dựa trên bộ dev, cho dù thích dịch trực tiếp hay dịch xoay qua tiếng Anh.
Kết hợp tất cả lại với nhau, chúng tôi biết rằng chúng tôi có một hệ thống đa ngôn ngữ tuyệt vời, nhưng kết quả chính thức về bộ thử nghiệm mù vượt quá mong đợi của chúng tôi. Chúng tôi đã đạt được 2,5 đến 9 BLEU trước đối thủ cạnh tranh tiếp theo và 10 đến 21 điểm BLEU trước mô hình M2M-175 cơ bản. Trong thử nghiệm dev, chúng tôi đã so sánh với mô hình M2M-615 lớn hơn, mà chúng tôi cũng đánh bại từ 10 đến 18 điểm.
Ngoài dịch: Thế hệ ngôn ngữ phổ quát
Mặc dù chúng tôi rất vui mừng về chiến thắng lớn tại WMT 2021, nhưng điều thú vị hơn nữa là không giống như các đối thủ cạnh tranh khác, mô hình ZCode-DeltaLM của chúng tôi không chỉ là một mô hình dịch thuật, mà còn là một mô hình ngôn ngữ giải mã được đào tạo sẵn chung, có thể sử dụng cho tất cả các loại nhiệm vụ thế hệ ngoài dịch thuật. Điều này thực sự cho phép các mô hình của chúng tôi thực hiện khá tốt các nhiệm vụ tạo ngôn ngữ tự nhiên đa ngôn ngữ khác nhau.
Chúng tôi đã đạt được một SOTA mới trong nhiều nhiệm vụ thế hệ phổ biến từ Điểm chuẩn GEM, bao gồm Wikilingua (tóm tắt), Đơn giản hóa văn bản (WikiAuto) và cấu trúc thành văn bản (WebNLG). Mô hình DeltaLM-ZCode vượt trội hơn nhiều so với các mô hình lớn hơn nhiều như mT5 XL (3,7B) cũng được đào tạo trên dữ liệu lớn hơn nhiều. Điều này chứng tỏ hiệu quả và tính linh hoạt của các mô hình dẫn đến hiệu suất mạnh mẽ trên nhiều nhiệm vụ.
Hình 2. Hiệu suất (điểm RL) của ZCode-DeltaLM về các tác vụ Tóm tắt và Đơn giản hóa Văn bản trong điểm chuẩn GEM
Nhìn về phía trước
Dịch máy đa ngôn ngữ đã đạt đến một điểm mà nó hoạt động rất tốt, vượt quá các hệ thống song ngữ, trên cả ngôn ngữ tài nguyên thấp và cao. Hỗn hợp các mô hình chuyên gia (MoE) đã được chứng minh là rất phù hợp để mở rộng quy mô các mô hình như đã được hiển thị trong GShard. Chúng tôi khám phá cách mở rộng hiệu quả các mô hình như vậy với Hỗn hợp các chuyên gia: Đào tạo MoE có thể mở rộng và hiệu quả cho các mô hình đa ngôn ngữ. Các mô hình MoE với dữ liệu đa ngôn ngữ khổng lồ và đào tạo đa nhiệm không giám sát mang đến cơ hội không chuẩn bị cho các mô hình như vậy để cung cấp các hệ thống thực sự phổ quát có thể cho phép nhóm Microsoft Translator loại bỏ các rào cản ngôn ngữ trên toàn thế giới, cũng như hỗ trợ nhiều nhiệm vụ tạo ngôn ngữ tự nhiên.
Sự thừa nhận
Chúng tôi muốn ghi nhận và cảm ơn Francisco Guzman và nhóm của ông đã thu thập bộ thử nghiệm FLORES đa ngôn ngữ ồ ạt và tổ chức ca khúc WMT này với đánh giá quy mô lớn như vậy.