Багатомовний переклад в масштабі: 10000 мовних пар і за його межами
Корпорація Майкрософт шукає ШІ в масштабі з високими амбіціями, щоб забезпечити наступне покоління досвіду ШІ. Перекладач Корпорації Майкрософт Z Код Команда працює разом з Проект Microsoft Тюрінг і Microsoft Research Asia для просування мови та багатомовної підтримки в основі цієї ініціативи. Ми продовжуємо просувати кордони з багатомовними моделями для підтримки різних мовних сценаріїв у корпорації Майкрософт. Минулого літа ми оголосили про наші масштабні масштаби. Багатомовна суміш експерта модель з Глибока труба які можуть перевершити окремі масштабні двомовні моделі. Нещодавно остання модель представлення універсальної мови Тюрінга (T-ULRv5), створена Microsoft модель знову є станом мистецтва і у верхній частині Google Публічний лідерборд XTREME на той час. Нещодавно Microsoft оголосила про найбільшу Мегатрон-Тюрінг NLG 530B модель параметрів.
Щорічна конференція з машинного перекладу (він же WMT 2021) завершилася минулого тижня в прекрасній Пунта-Кані, Домініканська Республіка. WMT об'єднує дослідників з усієї галузі машинного перекладу, як галузі, так і наукових кіл, для участі в серії спільних завдань, кожен з яких визначає орієнтир у важливій галузі машинного перекладу, щоб підштовхнути поле до нових кордонів.
Команда Microsoft Translator ZCode, працюючи разом з командою Тюрінга і Microsoft Research Asia, змагалася в треку «Великомасштабний багатомовний переклад», який складався з повного завдання перекладу між усіма 10 000 напрямками на 101 мову і двома малими завданнями: одна зосереджена на 5 центральних і південних європейських мовах, а одна на 5 південно-східно-азіатських мовах. Модель Microsoft ZCode-DeltaLM виграла всі три завдання з величезним відривом, включаючи неймовірний 10+ очковий приріст над моделлю M2M100 у великому завданні, оціненому на масивних 10 000 мовних парах. (Результати спільного завдання WMT 2021 з великомасштабного багатомовного машинного перекладу, Wenzek et al, WMT 2021).
Рисунок 1: Офіційні результати (бали BLEU) на повне завдання та мале завдання1 на загальному багатомовному перекладі WMT 2021
Підхід ZCode-DeltaLM
У цьому блозі, давайте подивимося під капотом на виграшну модель Microsoft ZCode-DeltaLM. Нашою відправною точкою була DeltaLM (DeltaLM: Передпідготовка кодера-декодера для формування та перекладу мови шляхом збільшення попередньопідготовлених багатомовних кодерів), остання в все більш потужній серії масово багатомовних попередньо навчених мовних моделей від Microsoft.
DeltaLM є моделлю кодера-декодера, але замість тренування з нуля, вона ініціалізується з раніше попередньо навченої моделі сучасного кодера, зокрема (TULRv3). Хоча ініціалізація кодера проста, декодер менший, оскільки він додає перехресної уваги до самооцінкакодера. DeltaLM вирішує цю проблему за допомогою нової взаємопов'язаних архітектури, де самовідомість і перехресна увага чергуються між шарами, з самовідомістю, що використовується в непарних шарах, і перехресною увагою, що використовується в парних шарах. За допомогою цього переплетення структура декодера відповідає кодеру, і тому вона також може бути ініціалізована таким же чином з TULRv3.
DeltaLM доповнений потужним багатозадачим навчанням ZCode: Багатозадачність навчання для багатомовного нейронного машинного перекладу. Наші моделі показують, що поєднання багатозадачного і багатомовного навчання може значно поліпшити підготовку для великомасштабних попередньо навчених мовних моделей. Така багатозадачність багатомовної парадигми навчання використовує індуктивне упередження та регуляризацію з декількох завдань та мов одночасно для кращого виконання різних завдань. Ми використовуємо завдання перекладу, розміновуємо завдання автокодера та переклад прошкодовуємо завдання корупції, як показано на малюнку нижче.
Перемога в багатомовному перекладі
Щоб побудувати нашу переможну масово багатомовну систему перекладу (Багатомовні системи машинного перекладу від корпорації Майкрософт для спільного завдання WMT21), ми почали з zCode-DeltaLM, і додали кілька прийомів.
Ми застосовуємо прогресивне навчання, спочатку навчаємо модель з 24 шарами кодера та 12 шарами декодера, а потім продовжуємо навчання з 12 доданими шарами кодера, що призводить до глибокого 36-шарового кодера. Щоб охопити всі мовні пари, ми генеруємо подвійні псевдо-паралельні дані, де обидві сторони паралельних даних є синтетичними, перекладеними моделлю з англійської мови. Ми також застосовуємо ітераційний зворотний переклад для створення синтетичних даних. Ми застосовуємо навчання навчальних програм, починаючи з усього галасливого навчального даних, а потім зводячи його до чистої підмножини. Ми переоцінюємо мету перекладу, щоб надати перевагу паралельним даних над зворотним перекладом та подвійними псевдо-паралельними даними. Ми застосовуємо вибірку температури, щоб збалансувати між мовними парами. Для кожної мовної пари ми вибираємо, виходячи з набору dev, чи віддавати перевагу прямому перекладу або стрижневому перекладу через англійську мову.
Зібравши все це разом, ми знали, що у нас є дивовижна масивна багатомовна система, але офіційні результати сліпого тестового набору перевершили наші очікування. Ми набрали від 2,5 до 9 BLEU попереду наступного конкурента, і на 10-21 бал BLEU випереджаючи базову модель M2M-175. На тесті dev ми порівняли з більшою моделлю M2M-615, яку ми також побили на 10-18 балів.
Поза перекладом: Покоління універсальної мови
Хоча ми в захваті від великої перемоги на WMT 2021, що ще більш захоплюючим є те, що на відміну від інших конкурентів, наша модель ZCode-DeltaLM - це не просто модель перекладу, а скоріше загальна попередньо навчена модель мови кодера-декодера, яка використовується для всіх видів завдань генерації за межами перекладу. Це дійсно дозволяє нашим моделям досить добре виконувати різні багатомовні завдання генерації природної мови.
Ми досягли нової SOTA в багатьох популярних завданнях покоління від GEM Бенчмарк, включаючи Вікілінгва (узагальнення), спрощення тексту (WikiAuto) та структуру до тексту (WebNLG). Модель DeltaLM-ZCode широко перевершує набагато більші моделі, такі як mT5 XL (3.7B), який також навчається на набагато більших даних. Це продемонструвало ефективність і універсальність моделей, що призвело до сильної продуктивності в багатьох завданнях.
Малюнок 2. Продуктивність (RL оцінки) ZCode-DeltaLM на резюме та спрощення тексту завдання в gem бенчмарк
Забігаючи наперед
Багатомовний машинний переклад досяг точки, де він працює дуже добре, перевищуючи двомовні системи, як на низько- так і на високоресурсних мовах. Було показано, що суміш моделей експертів (МВ) дуже добре підходить для масштабування таких моделей, як було показано в GShard. Ми досліджуємо, як ефективно масштабувати такі моделі за допомогою суміші експертів: Масштабоване та ефективне навчання МНА для багатозадачних багатомовних моделей. Моделі МНС з масивними багатомовними даними та неконтрольованим багатозадачним навчанням надають непідготовлену можливість для таких моделей забезпечити справді універсальні системи, які можуть надалі дозволити команді Microsoft Translator усунути мовні бар'єри у всьому світі, а також підтримувати різноманітні завдання генерації природної мови.
Подяки
Ми хотіли б відзначити і подякувати Франсіско Гусман і його команда, яка зібрала масово багатомовний набір тестів FLORES і організував цей трек WMT з такою великою оцінкою.