微软对话语音识别技术达至人类专业水平，开启人工智能新征程

2016年10月19日

分享这个页面

一个月前，2016年9月14日，微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率（word error rate, 简称WER）低至6.3%的突破，创造当时该领域内错误率最低纪录。

一个月后，10月18日，微软进一步将词错率降低至5.9%，首次达成与专业速记员持平而优于绝大多数人的表现：上周末，微软人工智能与研究部门的研究员和工程师在论文中展示了他们这一创纪录的语音识别系统。如需查阅论文可到文末点击“阅读原文”，或按以下信息检索：Achieving Human Parity in Conversational Speech Recognition, https://arxiv.org/abs/1610.05256

这5.9%的词错率是什么概念？

在行业标准Switchboard语音识别任务测试中，人类对照组（由专业速记员组成）将对话语音转录成文字，目前有记录的最低词错率就是5.9%，这就意味着微软的语音识别系统的语音识别能力已经高于世界上绝大多数人而与人类专业高手持平，创造了一项新的世界纪录。

更加令人感到兴奋的是，从6.3%到5.9%，微软人工智能与研究部门只花了一个多月的时间，这让我们有理由相信，计算机真正超越人类语音识别能力那一天已经不远了。

微软首席语音科学家黄学东博士表示，“在对话语音识别中，我们已经实现了和人类同等的水平，这是一个历史性的突破，意味着有史以来第一次有计算机能像人类一样识别对话中的每一个单词。并且，我们团队花了不到一年时间就实现了这个目标，这远远超出大家的期望。”就连负责微软人工智能与研究部门的微软全球执行副总裁沈向洋博士也笑言，“要是在五年前，我是绝对不敢相信我们可以实现这个目标的。”

针对语音识别的研究可以追溯到上个世纪七十年代DARPA（Defense Advanced Research Projects Agency，美国国防部先进研究项目局，主要致力于美国国防高新技术的研究、开发和应用）资助的一个相关项目。此后几十年，越来越多研究机构和大型公司陆续加入其中。“这次突破是过去二十多年语音识别技术不断积累的结果，”微软主管语言及对话研究组的研究员Geoffrey Zweig称。

此次语音识别的里程碑式突破将对消费者和商业产品产生深远影响，因为语音识别技术能够显著增强人们的日常计算体验。这些产品包括像XBOX的娱乐设备、像微软小娜（Cortana）的生产力工具以及能实现实时语音到文本转录的个人人工智能助手。“这项技术将使小娜变得更强大，切实地让小娜的助理服务更智能。”沈向洋补充道。

“筑梦为马”

Geoffrey Zweig将他们这一系统的成功归功于他们采用的最新的神经网络技术；让研究实现质的飞跃的关键就在于他们采用了一种神经语言模型，该模型在空间中被表现为连续的向量，计算机能通过该模型得知比如“fast”和“quick”是具有紧密联系的近义词。“这让模型能充分概念化每一个词汇。”Zweig解释道。

随着深层神经网络在语音识别和图像识别等领域大显身手，这一技术正变得炙手可热。

深层神经网络使用大量数据（称为训练集）来训练计算机系统识别来自图像或声音等输入的模式。为达到和人类同等识别水平的里程碑，微软团队使用微软基于多年技术积累开发的一个本地化深度学习系统CNTK，CNTK工具包已于一年前在GitHub上开源，目前包括微软人工智能个人助理小娜和混合现实全息眼镜HoloLens的语音识别都是基于CNTK实现的。

黄学东博士表示，CNTK跟其他开源软件最大的区别是它能做大规模、分布式的机器学习，同时保证强大的性能；可以说，微软的语音识别技术可以一次又一次刷新纪录，在很大程度上就要归功于CNTK这个开源工具，它极大地提高了团队的研究速度，最终在今天实现了与人类专业能力看齐的目标。

回报来得如此迅速，从事语音识别研究已有三十多年的黄博士告诉我们，“5.9%的结果是在凌晨三点半取得的，我直到几小时后一大早醒来才得知，当时已有团队成员第一时间在社交媒体上分享自己成功的喜悦……这对我来说简直是多年梦想一朝成真。”

*后排左起：Wayne Xiong, Geoffrey Zweig, Frank Seide；前排左起：黄学东, Dong Yu, Mike Seltzer, Jasha Droppo，Andreas Stolcke；摄影：Dan DeLong*

与此同时，来自微软亚洲研究院视觉计算组的研究员也实现了自己所在领域的里程碑式突破，在图像识别MS COCO（Microsoft Common Objects in Context，常见物体图像识别）图像分割挑战赛中获得第一名。这项挑战赛主要考察在图像中确定某些对象的位置的技术。微软亚洲研究院常务副院长郭百宁博士表示，图像细分技术的难度远超人们的想象，因为计算机必须精准标识出物体在图像中出现的边界，“这应该是图像识别中最难的部分。”

该团队去年设计了一个极深的深层神经网络系统，称为深层残差网络（简称ResNet，deep residual networks）。该系统一出手就屡获殊荣，比如此次在图像分割上的突破成果也是基于该系统，成绩比第二名高出11%，并且，相较于去年COCO图像分割挑战赛第一名的成绩也有飞跃性的进步。对此，郭百宁博士自豪地表示，“微软一直以来都是图像识别领域的领导者。”

从识别到真正理解，“我们不会止步于5.9%”

尽管近年来科学家们在计算机视觉和语音识别等方面都取得了巨大突破，但他们深知前面还有许多工作要做。

仍以对话语音识别技术为例，微软团队的词错率虽然实现了与人类专业速记员持平的5.9%，但这并不代表计算机就能完美识别出每一个单词。事实上，即使是人类也无法做到完美，计算机的错误率就意味着计算机一样会在人类常常难以准确辨别的内容面前败下阵来：无论是计算机还是人类，都会发现“蓝瘦”、“香菇”（“难受”、“想哭”）不好对付。

“必须继续努力！”Zweig说。他们接下来的努力方向之一，就是确保语音识别技术能在类似人声喧哗的朋友聚会或背景声嘈杂的高速公路上开车这样一些更复杂的现实生活场景都能判别准确，同时重点关注如何完善实现的方法，帮助计算机在多人说话的场合为每位发言者分配名字，还要确保计算机能不论发言者的年龄、口音和音量大小而识别出各种语音。

从长远来看，研究人员将重点研究如何教计算机不仅将人们嘴里发出的声音信号变为文字，更要理解人们话语中的含义。这样一来，计算机就能准确回答用户的问题或采取相应行动。“下一个前沿技术就是从识别到理解。“Zweig
说。

从更宏观的角度，沈向洋博士指出，我们正在远离我们必须了解计算机的世界而逐步接近计算机必须了解我们的世界，真正的人工智能仍在遥远地平线那一边，“在计算机能真正明白我们的语言或示意之前，我们还有很长的路要走。”