此页面已由微软翻译机翻译服务自动翻译。 了解更多信息

微软翻译博客

统计机器翻译–访客博客 (更新与额外的论文)

威尔·刘易斯是微软翻译团队的项目经理, 从事语言质量和数据采集方面的工作。 今天的嘉宾博客是对发动机工作原理的高级解释:  

正如你们中的许多人所知道的, 在引擎盖下, 微软翻译是由统计机器翻译 (smt) 引擎提供动力的。 统计系统不同于基于规则的系统, 因为将单词和短语从一种语言映射到另一种语言的 "规则" 是由系统学习的, 而不是手工编码的。 培训 smt 需要收集大量并行培训数据 (希望质量好, 来自异构来源), 并对引擎进行这些数据的培训。 (并行是指一种语言的内容与另一种语言的内容相同的数据源。 引擎学习一种语言中的单词和短语与另一种语言中的单词和短语之间的对应关系, 这些对应通常通过在整个输入过程中反复出现相同的单词和短语来加强。 例如, 在训练英德系统, 让我们说, 如果引擎看到短语 保留所有权利 在英国方面, 也注意到 alle rechte vorbehalten 在德国方面, 它可能会对齐这两个短语, 并为这种对齐指定一些概率。 在训练数据中重复出现源短语和目标短语只会加强这种对齐。

通常, 语言对具有并行数据意味着我们可以在两个方向上训练引擎 (即, 英语-德语和德语-英语系统都可以在相同的输入句子上进行训练)。 你们中的一些人对为什么我们在发布西班牙语英语之前发布了英语-西班牙语系统有一些疑问。 真的有两个原因。 首先, 英语-西班牙语是我们发布的第一对通用域语言对。 释放一种语言对允许我们在开始发布更多语言之前测试基础结构。 其次, 西班牙语英语的技术与英语西班牙语的技术略有不同, 我们需要一些额外的时间来进行必要的基础设施变革, 以适应这种变化。 将来, 我们计划成对发布新的翻译系统 (有几个例外)。 我无法透露我们下一步计划了什么语言, 但确实期待一些新的语言很快!

对于那些对有关我们发动机及其工作原理的技术讨论感兴趣的人, 请参考开发这些发动机的研究人员的一些论文。 最近有三份值得注意的文件是:

克里斯·奎克, arul menezes。 我们需要短语吗?对统计机器翻译传统智慧的挑战 2006年5月纽约, 纽约, 美国 hlt-naacl 2006 论文集

克里斯·奎克, arul menezes。 依赖语翻译: 统计与基于实例的机器翻译的融合? 2006年3月机器翻译 43-65 (附文件)


克里斯·奎克, arul menezes。 利用依赖项排序模板提高翻译的通用性 2007年7月 计算语言学协会

依赖树翻译统计和基于实例的机器翻译的收敛性. pdf