新闻与深度文章
编者按:ICLR(International Conference on Learning Representations)是国际公认的深度学习领域顶级会议之一,众多在人工智能、统计和数据科学领域以及计算机视觉、语音识别、文本理解等重要应用领域极其有影响力的论文都发表在该大会上。今年的 ICLR 大会于4月25日至29日在线上举办。本届大会共接收论文1095篇,论文接收率32.3%。今天,我们精选…
编者按:今天“科学匠人”栏目的主人公名叫矣晓沅,他用实际行动证明了在轮椅上一样可以书写精彩的人生。从清华校园到微软亚洲研究院,他是如何开启自己的学术生涯?对于未来的研究方向和职业规划他有怎样的思考?科技又将如何推动无障碍领域的发展?让我们一起走近微软亚洲研究院研究员矣晓沅。 在2022年2月19日举行的2021 CCF 颁奖典礼上,矣晓沅从颁奖嘉宾的手中接过了“CCF 优秀博士学位论文奖”的奖杯和…
编者按:国际万维网会议(Proceedings of the ACM Web Conference,简称 WWW)是互联网技术领域最重要的国际会议之一。今年的 WWW 将于4月25-29日在法国里昂以线上会议的形式召开。本届会议共收到了1822篇长文投稿,论文录用率为17.7%,微软亚洲研究院也有多篇论文入选。今天我们为大家精选了其中的六篇进行简要介绍,研究主题关键词包括个性化新闻推荐、图异配性建…
作者:侯汶昕、王晋东 编者按:随着深度学习的不断发展,语音识别技术得到了极大的提升,同时为人们的日常生活提供了许多便利。然而,一个语音模型的训练并非易事,因为语音数据天然存在着获取难、数据标注耗时昂贵的问题,而且还会面临模型漂移、标注数据不足等难题。因此,迁移学习技术对于语音数据非常重要。为了解决语音识别的跨领域和跨语言问题,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院提出了跨领域和跨语言语…
作者:冷燚冲、谭旭 编者按:语音识别支持着许多生活中的常见服务,比如手机端的语音转文字功能、视频网站的字幕自动生成等等。但语音识别模型往往并不完美,需要纠错模型来纠正语音识别中的错误。目前,大部分纠错模型采用了基于注意力机制的自回归模型结构,虽然能够提升语音识别的准确率,但是延迟较高,这也成为了纠错模型在实际应用中的瓶颈。一个直接的做法是利用非自回归模型来提升速度,但是简单利用当前的非自回归模型不…
编者按:量子计算有望帮助我们解决人类所面临的一些最严峻的挑战。然而,在这个新生领域,我们仍处于发展的早期阶段。目前,在量子计算机的帮助下,研究人员已经能够开展一些有趣的研究项目,但他们仍然受制于系统规模的不足,无法开展更多研究。现有的量子计算机所依赖的量子比特有很多类型,但迄今为止还没有哪一类能够扩展到足够多的量子比特,以充分发挥量子计算的潜力。 微软正在采用一种更具挑战性但最终更有前景的方法来扩…
编者按:2021年,获得 ICCV 最佳论文奖的 Swin Transformer,通过在广泛的视觉问题上证明 Transformer 架构的有效性,加速了计算机视觉领域基本模型架构的变革。2021年末,微软亚洲研究院的研究员们又进一步提出了 Swin Transformer v2.0 版本,新版本训练了迄今为止最大的稠密视觉模型,并在多个主流视觉任务上大大刷新了记录,相关论文也已被 CVPR 2…
她们非同凡响的“另一面”
编者按:“人类经常少年老成、青年迷惑、中年喜欢将他人的成绩与自己相比较,因此觉得受挫,好不容易活到老年还是一个没有成长的笨孩子。我们一直粗糙地活着,而人的一生,便也这样过往了,”女作家三毛曾这样说过。 这些描述是否与你的人生轨迹有些许重合?我们都不约而同地走上了同样的路,忘记了最初的梦想,失去了曾经的兴趣,与那个不一样的自己渐行渐远。不过,在微软亚洲研究院有这样一群女性,她们在看似重复的科学研究和…
编者按:此前我们曾提出了一个问题:从文字脚本生成创意视频一共分几步?微软亚洲研究院的开放领域视频生成预训练模型给出了答案:只需一步。现在,我们追问:除了文字生成视频之外,还有哪些途径可以生成视频?我们能否使用自然语言对视觉内容进行编辑?微软亚洲研究院最新推出的多模态模型 NÜWA,不仅让视觉内容创造多了一条路,甚至还让 Windows 经典桌面有了更多的打开方式。 人类对于信息的感知有五种途径,包…