Политически неПравильные машины
Хотя мы в команде машинного перевода были видя увеличение трафика на наши различные предложения в течение последних нескольких месяцев, мы заметили внезапное Bump в движении вчера. Выросший на Агата Кристи и Шерлок Холмс, такие тайны неотразимы для меня-и ряд других людей в команде были так же любопытно, чтобы узнать, что вызвало этот внезапный удар. Мы полагали, что Активность IE8/УскорительTeh Посланник бот, Поиск переводов, Офисные переводы все показывали то же восходящий тренд, как и дни раньше, и поэтому не были особой причиной этого удара.
В конце концов, мы смогли выявить одну потенциальную причину, почему мы видели этот всплеск. Наше сообщество пользователей обнаружило странность в том, как механизм машинного перевода обрабатывал перевод для нескольких имен с английского на немецкий. Следует ожидать, что, когда двигатель переводит имя кандидата от одной стороны, чтобы кто-то из другой стороны, учитывая нынешнюю политическую атмосферу в преддверии выборов в США, что он будет в конечном итоге, как новости. Хотя мы, безусловно, приветствуем всех новых пользователей, которые пришли, чтобы проверить это явление из-мы хотели бы поделиться с нашими пользователями причина, почему такие вещи, как представляется, происходят время от времени с статистически обученных систем машинного перевода от нас и других.
Механизм статистического машинного перевода обучается на большом количестве и большом количестве параллельных данных, то есть данных, которые существуют как на исходном языке (например, на английском языке), так и на целевом языке (например, на немецком), где источником и целевым объектом являются переводы друг друга. Наш двигатель обучен миллионам предложений для каждой языковой пары, которую мы поддерживаем. Для того, чтобы тренироваться по определенному своду данных — может быть, большое количество статей на английском языке, которые были переведены на немецкий язык, — мы должны сначала сломать этот корпус в предложениях. После того, как корпус является предложение сломанной, мы кормим результирующие предложения в предложение выравнивания, единственная цель которого заключается в том, чтобы найти то, что предложения на стороне источника выравнивания с предложениями на стороне цели. Это не тривиальная задача, так как предложение на одной стороне может предположительно выровняться с одним или несколькими предложениями на целевом (или, возможно, вообще нет!). Выравнивание иногда делать ошибки, и выровнять одно предложение с другим, что на самом деле не перевод. Это может привести к некоторым невыполненным переводам, особенно если в источнике и целевом объекте есть слова, которые происходят редко. Поскольку наш механизм перевода является статистическим, он очень зависит от частоты совместного возникновения между словами в исходных и целевых данных. Если некоторые слова происходят редко — имена людей, например, могут происходить лишь несколько раз по всему корпусу из миллионов предложений — отсутствие частоты может привести к ошибочным переводам, возникающим в результате неправильных «догадок» между источником и целевым объектом (т.е. низким определенных исходных и целевых слов). Это может привести к некоторым комичным оплошностям в нашей системе перевода.
Таким образом, это, как "машина" решил перевести таким образом, что в конечном итоге с сообществом приписывая его чувство юмора нашей команды. Хотя мы продолжаем упорно трудиться для обеспечения надлежащего выравнивания, следует ожидать от статистической системы, которая строится на миллионах миллиардов слов, что такая ситуация может повториться.
Текущий вопрос с выравниванием теперь должны быть решены, но мы призываем наше сообщество пользователей, чтобы продолжать помогать нам идентифицировать любые такие ситуации, связавшись с нами через этот блог.
-Алексей