微软亚洲研究院

新闻与深度文章

文章

ICLR 2022 | 微软亚洲研究院深度学习领域最新研究成果一览

2022年4月26日

编者按：ICLR（International Conference on Learning Representations）是国际公认的深度学习领域顶级会议之一，众多在人工智能、统计和数据科学领域以及计算机视觉、语音识别、文本理解等重要应用领域极其有影响力的论文都发表在该大会上。今年的 ICLR 大会于4月25日至29日在线上举办。本届大会共接收论文1095篇，论文接收率32.3%。今天，我们精选…

文章

矣晓沅：“轮椅上的学霸”，用科技推动无障碍发展

2022年4月21日

编者按：今天“科学匠人”栏目的主人公名叫矣晓沅，他用实际行动证明了在轮椅上一样可以书写精彩的人生。从清华校园到微软亚洲研究院，他是如何开启自己的学术生涯？对于未来的研究方向和职业规划他有怎样的思考？科技又将如何推动无障碍领域的发展？让我们一起走近微软亚洲研究院研究员矣晓沅。在2022年2月19日举行的2021 CCF 颁奖典礼上，矣晓沅从颁奖嘉宾的手中接过了“CCF 优秀博士学位论文奖”的奖杯和…

文章

WWW 2022 | 一文解读互联网技术国际顶会最新方向

2022年4月19日

编者按：国际万维网会议（Proceedings of the ACM Web Conference，简称 WWW）是互联网技术领域最重要的国际会议之一。今年的 WWW 将于4月25-29日在法国里昂以线上会议的形式召开。本届会议共收到了1822篇长文投稿，论文录用率为17.7%，微软亚洲研究院也有多篇论文入选。今天我们为大家精选了其中的六篇进行简要介绍，研究主题关键词包括个性化新闻推荐、图异配性建…

文章

如何亿点点降低语音识别跨领域、跨语种迁移难度？

2022年3月31日

作者：侯汶昕、王晋东编者按：随着深度学习的不断发展，语音识别技术得到了极大的提升，同时为人们的日常生活提供了许多便利。然而，一个语音模型的训练并非易事，因为语音数据天然存在着获取难、数据标注耗时昂贵的问题，而且还会面临模型漂移、标注数据不足等难题。因此，迁移学习技术对于语音数据非常重要。为了解决语音识别的跨领域和跨语言问题，微软亚洲研究院机器学习组和微软（亚洲）互联网工程院提出了跨领域和跨语言语…

文章

语音识别的快速纠错模型FastCorrect系列来了！

2022年3月22日

作者：冷燚冲、谭旭编者按：语音识别支持着许多生活中的常见服务，比如手机端的语音转文字功能、视频网站的字幕自动生成等等。但语音识别模型往往并不完美，需要纠错模型来纠正语音识别中的错误。目前，大部分纠错模型采用了基于注意力机制的自回归模型结构，虽然能够提升语音识别的准确率，但是延迟较高，这也成为了纠错模型在实际应用中的瓶颈。一个直接的做法是利用非自回归模型来提升速度，但是简单利用当前的非自回归模型不…

文章

微软发布量子计算最新成果，证实拓扑量子比特的物理机理

2022年3月18日

编者按：量子计算有望帮助我们解决人类所面临的一些最严峻的挑战。然而，在这个新生领域，我们仍处于发展的早期阶段。目前，在量子计算机的帮助下，研究人员已经能够开展一些有趣的研究项目，但他们仍然受制于系统规模的不足，无法开展更多研究。现有的量子计算机所依赖的量子比特有很多类型，但迄今为止还没有哪一类能够扩展到足够多的量子比特，以充分发挥量子计算的潜力。微软正在采用一种更具挑战性但最终更有前景的方法来扩…

文章

Swin Transformer迎来30亿参数的v2.0，我们应该拥抱视觉大模型吗？

2022年3月17日

编者按：2021年，获得 ICCV 最佳论文奖的 Swin Transformer，通过在广泛的视觉问题上证明 Transformer 架构的有效性，加速了计算机视觉领域基本模型架构的变革。2021年末，微软亚洲研究院的研究员们又进一步提出了 Swin Transformer v2.0 版本，新版本训练了迄今为止最大的稠密视觉模型，并在多个主流视觉任务上大大刷新了记录，相关论文也已被 CVPR 2…

文章

她们非同凡响的“另一面”

2022年3月8日

编者按：“人类经常少年老成、青年迷惑、中年喜欢将他人的成绩与自己相比较，因此觉得受挫，好不容易活到老年还是一个没有成长的笨孩子。我们一直粗糙地活着，而人的一生，便也这样过往了，”女作家三毛曾这样说过。这些描述是否与你的人生轨迹有些许重合？我们都不约而同地走上了同样的路，忘记了最初的梦想，失去了曾经的兴趣，与那个不一样的自己渐行渐远。不过，在微软亚洲研究院有这样一群女性，她们在看似重复的科学研究和…

文章

微软亚洲研究院多模态模型NÜWA：以自然语言创造视觉内容

2022年3月3日

编者按：此前我们曾提出了一个问题：从文字脚本生成创意视频一共分几步？微软亚洲研究院的开放领域视频生成预训练模型给出了答案：只需一步。现在，我们追问：除了文字生成视频之外，还有哪些途径可以生成视频？我们能否使用自然语言对视觉内容进行编辑？微软亚洲研究院最新推出的多模态模型 NÜWA，不仅让视觉内容创造多了一条路，甚至还让 Windows 经典桌面有了更多的打开方式。人类对于信息的感知有五种途径，包…