Blog do Microsoft Translator

O Microsoft Translator libera publicamente o corpus de tradução de fala

Publicado em 3 de fevereiro de 2017por Microsoft Translator

Christian Federmann, gerente de programa sênior

Como parte de um esforço contínuo da Microsoft para melhorar a precisão dos sistemas de inteligência artificial (IA), o Microsoft Translator está divulgando publicamente um conjunto de dados que inclui várias conversas entre falantes bilíngues que falam francês, alemão e inglês.

Esse corpus, que foi produzido pela Microsoft usando falantes bilíngues, tem como objetivo criar um padrão pelo qual as pessoas possam medir o funcionamento de seus sistemas de tradução de fala em conversação. Ele pode servir como um conjunto de dados padronizado para testar sistemas bilíngues de tradução de fala em conversação, como o Recurso ao vivo do Microsoft Translator e Tradutor do Skype.

Christian FedermannFedermann, gerente de programa sênior que trabalha com a equipe do Microsoft Translator, disse que não há muitos conjuntos de dados padronizados para testar sistemas bilíngues de tradução de fala conversacional. "Você precisa de dados de alta qualidade para fazer testes de alta qualidade", disse Federmann.

A equipe da Microsoft espera que o corpus, que está disponível gratuitamente, beneficie todo o campo da tradução de conversação e ajude a criar referências mais padronizadas que os pesquisadores possam usar para comparar seu trabalho com o de outros.

"Isso ajuda a impulsionar o campo", disse Will Lewisum gerente de programa técnico principal da equipe do Microsoft Translator que também trabalhou no projeto.

Faça o download do corpus do Microsoft Speech Language Translation aqui.

Saiba mais sobre essa versão, bem como sobre outras maneiras pelas quais a Microsoft está trabalhando para tornar a IA mais inteligente e mais precisa no Blog da Microsoft Research.

Saiba mais