此页面已由微软翻译机翻译服务自动翻译。 了解更多信息

微软翻译博客

政治上不正确的机器

虽然我们机器翻译团队在过去几个月里看到我们的各种产品的流量不断增加, 但我们注意到昨天的流量突然出现了碰撞。在阿加莎·克里斯蒂和福尔摩斯身上长大的这样的谜团对我来说是不可抗拒的--而队中的其他一些人也同样好奇, 想知道是什么原因导致了这一突然的碰撞。我们认为 ie8 活动/加速器,在 信使机器人, 搜索翻译, 办公室翻译 都显示出与前几天相同的上升趋势, 因此并不是造成这种碰撞的具体原因。

最终, 我们能够确定我们看到这个尖峰的一个潜在原因。我们的用户社区发现机器翻译引擎如何处理从英语到德语的几个名字的翻译是一个奇怪的问题。可以预见, 考虑到目前美国大选前的政治气氛, 当引擎将一个政党的候选人姓名翻译给另一个政党的人时, 最终会成为新闻。虽然我们当然欢迎所有新用户来检查这种现象-我们想与我们的用户分享为什么这样的事情似乎不时发生与统计培训的机器翻译系统从我们和其他人。

统计机器翻译引擎接受大量并行数据的培训, 即源语言 (如英语) 和目标语言 (如德语) 中存在的数据, 其中源和目标是彼此的翻译。我们的引擎针对我们支持的每一对语言组合都接受了数百万句子的训练。为了训练特定的数据语料库--也许是大量被翻译成德语的英文新闻文章--我们首先必须将该语料库分解成句子。语料库被打破后, 我们把产生的句子喂成一个句子, 其唯一目的是找到源方的句子与目标方的句子对齐。这不是一项微不足道的任务, 因为可以想象, 一边的句子可以与目标上的一个或多个句子对齐 (或者可能根本没有!)这个人有时会犯错, 把一个句子和另一个句子错位, 而这其实不是翻译。这可能会导致一些误译, 特别是如果源和目标中有不经常发生的单词。由于我们的翻译引擎是统计的, 它高度依赖于源数据和目标数据中单词之间的共现频率。如果某些词很少出现--例如, 人们的名字可能只在数百万句子的主体中出现几次--那么频率的缺乏可能会导致源和目标之间不正确的 "猜测" (即低) 导致误译分配给特定源和目标词的概率)。这可能会导致我们的翻译系统出现一些滑稽的错误。

所以, "机器" 就是这样决定翻译的, 最终社区将其归因于我们团队的幽默感。虽然我们继续努力确保适当的调整, 但从一个建立在数百万到数十亿字基础上的统计系统可以预期, 这种情况可能会重演。

目前与对齐的问题现在应该得到解决, 但我们敦促我们的用户社区通过这个博客联系我们, 不断帮助我们识别任何这种情况。

-维克拉姆

维克拉姆·丹迪领导微软翻译团队的业务战略和产品规划