a tall building lit up at night

微软亚洲研究院

微软亚洲研究院机器阅读系统在SQuAD挑战赛中率先超越人类水平

分享这个页面

在由斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛的最新榜单上,微软亚洲研究院自然语言计算组于2018年1月3日提交的R-NET模型在EM值(Exact Match, 表示预测答案和真实答案完全匹配)上以82.650的最高分领先,并率先超越人类分数82.304。

SQuAD

微软亚洲研究院院长洪小文第一时间向自然语言计算组表示了祝贺:“这对于微软以及自然语言处理研究领域来说,都是一个重要的里程碑。一方面,微软团队在如此激烈的竞争中,以稳定的成绩长期位居榜首,可喜可贺。团队的最新研究成果已经应用在微软相关的AI产品中。另一方面,计算机文本理解能力首次超越人类,也预示着该领域的研究将会有更大突破,相关的AI应用普及可以期待。”

值得一提的是,最新发布的这期榜单中,阿里巴巴、腾讯、科大讯飞等中国研究团队的相关测试成绩也有大幅提升,名列榜单前列。微软亚洲研究院副院长、自然语言计算组负责人周明博士表示:“祝贺中国的自然语言理解研究已经走在世界前列!整个领域的进步需要大家共同的努力和投入来推动。自然语言处理长路漫漫,让我们共勉。”

a group of people posing for the camera
微软亚洲研究院机器阅读团队

SQuAD挑战赛被称为机器阅读理解界的ImageNet,由斯坦福大学自然语言计算组发起,它通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题),即将一篇几百(平均100,最多800)词左右的短文给标注者阅读,随后让标注人员提出最多5个基于文章内容的问题并提供正确答案。SQuAD向参赛者提供训练集用于模型训练,以及一个规模较小的数据集作为开发集,用于模型的测试和调优。与此同时,他们提供了一个开放平台供参赛者提交自己的算法,并利用测试集对其进行评分,评分结果将实时地在SQuAD官网(点击阅读原文查看)上进行更新。

得益于SQuAD所提供的庞大数据规模,参与该项挑战赛的选手不断地对成绩进行刷新,SQuAD挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试,不断推动着机器阅读理解领域的发展。