Pular para o conteúdo principal
Tradutor

Blog do Microsoft Translator

Tradução multilíngue em escala: 10.000 pares de idiomas e muito mais

A Microsoft está em uma busca por IA em escala com grande ambição de possibilitar a próxima geração de experiências de IA. O Microsoft Translator Código Z A equipe está trabalhando em conjunto com Microsoft Project Turing e a Microsoft Research Asia para promover o suporte a idiomas e multilíngues no centro dessa iniciativa. Continuamos a expandir as fronteiras com modelos multilíngues para oferecer suporte a vários cenários de idiomas em toda a Microsoft. No verão passado, anunciamos nosso projeto de grande escala Mistura multilíngue de especialistas modelo com DeepSpeed que podem superar os modelos bilíngues individuais em grande escala. Recentemente, o mais recente modelo de representação de linguagem universal da Turing (T-ULRv5), um modelo criado pela Microsoft é mais uma vez o estado da arte e está no topo da lista do Google Tabela de classificação pública da XTREME naquela época. Mais recentemente, a Microsoft anunciou o maior Megatron-Turing NLG 530B modelo de parâmetros.

A Conferência anual sobre tradução automática (também conhecida como WMT 2021) foi concluída na semana passada na bela Punta Cana, na República Dominicana. A WMT reúne pesquisadores de toda a área de tradução automática, tanto do setor quanto do meio acadêmico, para participar de uma série de tarefas compartilhadas, cada uma definindo uma referência em uma área importante da tradução automática para levar o campo a novas fronteiras.

A equipe do Microsoft Translator ZCode, trabalhando em conjunto com a equipe Turing e a Microsoft Research Asia, competiu na faixa "Tradução multilíngue em grande escala", que consistia em uma tarefa completa de tradução entre todas as 10.000 direções em 101 idiomas e duas tarefas pequenas: Uma focada em 5 idiomas do centro e do sul da Europa e outra em 5 idiomas do sudeste asiático. O modelo Microsoft ZCode-DeltaLM venceu as três tarefas por margens enormes, incluindo um incrível ganho de mais de 10 pontos em relação ao modelo M2M100 na tarefa grande avaliada em um grande número de 10.000 pares de idiomas. (Resultados da tarefa compartilhada da WMT 2021 sobre tradução automática multilíngue em grande escalaWenzek et al, WMT 2021).

Figura 1: Resultados oficiais (pontuações BLEU) nas tarefas Full-Task e Small-Task1 na tarefa compartilhada de tradução multilíngue em grande escala da WMT 2021

A abordagem ZCode-DeltaLM

Nesta postagem do blog, vamos dar uma olhada nos bastidores do modelo vencedor do Microsoft ZCode-DeltaLM. Nosso ponto de partida foi o DeltaLM (DeltaLM: pré-treinamento de codificador-decodificador para geração e tradução de idiomas por meio do aumento de codificadores multilíngues pré-treinados), o mais recente da série cada vez mais avançada de modelos de linguagem pré-treinados multilíngues em massa da Microsoft.


O DeltaLM é um modelo codificador-decodificador, mas, em vez de ser treinado do zero, ele é inicializado a partir de um modelo somente codificador de última geração previamente pré-treinado, especificamente (TULRv3). Embora a inicialização do codificador seja simples, a do decodificador não é tão simples, pois acrescenta atenção cruzada à auto-atenção do codificador. O DeltaLM resolve esse problema com uma nova arquitetura intercalada, em que a autoatenção e a atenção cruzada se alternam entre as camadas, com a autoatenção usada nas camadas ímpares e a atenção cruzada usada nas camadas pares. Com essa intercalação, a estrutura do decodificador corresponde à do codificador e, portanto, também pode ser inicializada da mesma forma no TULRv3.

O DeltaLM é ampliado pela avançada aprendizagem multitarefa do ZCode: Aprendizado multitarefa para tradução automática neural multilíngue. Nossos modelos mostram que a combinação da aprendizagem multitarefa e multilíngue pode melhorar significativamente o treinamento de modelos de idiomas pré-treinados em grande escala. Esse paradigma de aprendizado multilíngue multitarefa está aproveitando a tendência indutiva e a regularização de várias tarefas e idiomas simultaneamente para obter melhor desempenho em várias tarefas posteriores. Estamos usando a tarefa de tradução, a tarefa de codificador automático de redução de ruído e a tarefa de corrupção de extensão de tradução, conforme mostrado na figura abaixo.

Vencendo a trilha da tradução multilíngue em massa

Para criar nosso sistema vencedor de tradução multilíngue em massa (Sistemas de tradução automática multilíngue da Microsoft para a tarefa compartilhada WMT21), começamos com o zCode-DeltaLM e acrescentamos alguns truques.

Aplicamos o aprendizado progressivo, primeiro treinando um modelo com 24 camadas de codificador e 12 camadas de decodificador e, em seguida, continuamos o treinamento com 12 camadas de codificador adicionais, resultando em um codificador profundo de 36 camadas. Para abranger todos os pares de idiomas, geramos dados duplos pseudoparalelos em que ambos os lados dos dados paralelos são sintéticos, traduzidos pelo modelo do inglês. Também aplicamos a retrotradução iterativa para gerar dados sintéticos. Aplicamos o aprendizado curricular, começando com todos os dados de treinamento com ruído e depois reduzindo-os a um subconjunto limpo. Ponderamos novamente o objetivo da tradução para favorecer os dados paralelos em relação à retrotradução e aos dados duplamente pseudoparalelos. Aplicamos a amostragem de temperatura para equilibrar os pares de idiomas. Para cada par de idiomas, escolhemos, com base no conjunto de desenvolvimento, se preferimos a tradução direta ou a tradução pivô por meio do inglês.

Juntando tudo isso, sabíamos que tínhamos um incrível sistema multilíngue em massa, mas os resultados oficiais no conjunto de testes cegos superaram nossas expectativas. Obtivemos uma pontuação de 2,5 a 9 BLEU à frente do concorrente seguinte e de 10 a 21 pontos BLEU à frente do modelo de linha de base M2M-175. No teste de desenvolvimento, comparamos com o modelo maior M2M-615, que também superamos em 10 a 18 pontos.

Além da tradução: Geração de linguagem universal

Embora estejamos empolgados com a grande vitória na WMT 2021, o que é ainda mais empolgante é que, ao contrário dos outros concorrentes, nosso modelo ZCode-DeltaLM não é apenas um modelo de tradução, mas um modelo geral de linguagem de codificador-decodificador pré-treinado, utilizável para todos os tipos de tarefas de geração além da tradução. Isso realmente permite que nossos modelos tenham um desempenho muito bom em várias tarefas de geração de linguagem natural multilíngue.

Alcançamos um novo SOTA em muitas tarefas populares de geração de Referência GEMincluindo Wikilingua (resumo), simplificação de texto (WikiAuto) e estrutura para texto (WebNLG). O modelo DeltaLM-ZCode superou amplamente modelos muito maiores, como o mT5 XL (3,7B), que também foi treinado com dados muito maiores. Isso demonstrou a eficiência e a versatilidade dos modelos, levando a um bom desempenho em muitas tarefas.

Figura 2. Desempenho (pontuações RL) do ZCode-DeltaLM nas tarefas de Summarização e Simplificação de Texto no benchmark GEM

Olhando para o futuro

A tradução automática multilíngue chegou a um ponto em que seu desempenho é muito bom, superando os sistemas bilíngues, tanto em idiomas com poucos quanto com muitos recursos. Os modelos de Mistura de Especialistas (MoE) demonstraram ser uma ótima opção para ampliar esses modelos, como foi demonstrado no GShard. Exploramos como dimensionar esses modelos de forma eficiente com o Mixture of Experts: Treinamento de MoE dimensionável e eficiente para modelos multilíngues multitarefa. Os modelos de MoE com dados multilíngues maciços e treinamento multitarefa não supervisionado apresentam uma oportunidade sem precedentes para que esses modelos forneçam sistemas verdadeiramente universais que possam permitir que a equipe do Microsoft Translator elimine as barreiras linguísticas em todo o mundo, além de oferecer suporte a uma variedade de tarefas de geração de linguagem natural.

Agradecimentos

Gostaríamos de reconhecer e agradecer a Francisco Guzman e sua equipe, que coletaram o conjunto de testes FLORES multilíngue e massivo e organizaram essa faixa da WMT com uma avaliação em grande escala.