Генериране на създаване на договор за създаване на "създаване на...
Преводач
Тази страница е преведена автоматично от услугата за машинен превод на Microsoft. Разберете повече

Блог на Microsoft преводач

Статистически машинен превод – блог за гости (актуализиран с допълнителна хартия)

Уил Люис е програмен мениджър в екипа на Microsoft преводач, работейки за качеството на езика и придобиването на данни.  Днешният блог за гости е високо ниво обяснение за това как работи Двигателят:  

Както мнозина от вас знаят, под капака на Microsoft преводач се захранва от двигател на статистическия машинен превод (SMT).  Статистическите системи са различни от тези, основаващи се на правилото, тъй като "правилата", които картографират думите и фразите от един език на друг, се научават от системата, а не са кодирани ръчно.  Обучението на SMT изисква увеличаване на голямо количество паралелни обучителни данни — да се надяваме на добро качество и от хетерогенни източници — и обучение на двигателя на тези данни.  (Успоредно с това имаме предвид източник на данни, при който съдържанието на един език е същото като това на другото.)  Двигателят научава съответствията между думи и фрази на един език и тези в друга, които често се подсилват от повтарящи се повторения на едни и същи думи и фрази по време на входа.  Например, в обучението на английско-германската система да речем, ако двигателят види фразата Всички права запазени на английската страна и също така Всички от немската страна, тя може да приведе тези две фрази и да присвои някаква вероятност за това подравняване.  Многократните повторения на изходните и целевите фрази в данните за обучението ще засилят това подравняване.

Като цяло, наличието на паралелни данни за езикова двойка означава, че можем да тренираме двигатели и в двете посоки (т. е. както Англоезичната, така и немската-Английската система могат да бъдат обучени на едни и същи входни изречения).  Някои от вас имаха някои въпроси относно това, защо пуснахме английската испанска система преди да пуснат Испански-Английски.  Имаше две причини.  Първо, английско-Испанският е първата обща двойка езици на домейна, която пуснахме.  Освобождаването на една езикова двойка ни позволи да тестваме инфраструктурата, преди да започнем да освобождаваме повече.  Второ, технологията за Испански-Английски е малко по-различна от тази, използвана за английски-испански, и ние се нуждаем от допълнително време, за да направим необходимите инфраструктурни промени, за да се настанят.  В бъдеще планираме да пуснем нови системи за превод по двойки (с няколко изключения).  Не мога да разкрия какви езици сме планирали след това, но Очаквайте скоро нови!

За тези от вас, които се интересуват от технически дискусии относно нашите двигатели и как те работят, моля, вижте някои от вестниците от изследователите, които ги разработват.  Три Последни документи са:

Крис Кукуик, Арул Менеций. Трябват ли ни фрази? Оспорване на конвенционалната мъдрост в статистическия машинен превод Май 2006 Ню Йорк, Ню Йорк, САЩ Производство на HLT-NAACL 2006

Крис Кукуик, Арул Менеций. Зависимост Treelet превод: сближаването на статистическия и примерни базирани машинен превод? Март 2006 машинен превод 43-65 (прикачен файл)


Крис Кукуик, Арул Менеций. Използване на шаблони за поръчка на зависимости за подобряване на общата приложимост в превода 2007 юли Асоциация за компютърно езикознание

Зависимости Treelet превод сближаването на статистическите и примерни базирани машинепревод. PDF