“我适合做科研吗?”带着这个问题,在中国传媒大学通信与信息系统专业读研一的姜雪来到微软亚洲研究院寻找答案。当时的她还没有丰富的科研经验,对深度学习的了解也有限。
在研究院的“沉浸式”科研环境中,姜雪在多媒体计算组从头探索“基于深度学习的音频编码”这一新方向。一年半的实习成果丰硕,她在包括 ICASSP、INTERSPEECH 等在内的语音研究领域顶级会议以第一作者的身份发表了多篇学术论文。
今年 9 月,姜雪选择继续攻读博士学位,这段实习经历带领她找到了开头问题的答案。“不管是 mentor 们还是小伙伴们,我都在他们身上看到了自己想成为的样子”,姜雪说。
从科研小白到顶会文章作者,背后是姜雪工作日里风雨无阻的早出晚归,也是她与 mentor 亲密无间的合作。自我定义为“非天赋型选手”的她证实了“一直全身心投入一件事,总是会有收获的”。
在微软亚洲研究院从头探索新方向
姜雪与微软亚洲研究院的缘分始于她在中国传媒大学的导师推荐。中国传媒大学张远教授认为,微软亚洲研究院的科研氛围非常好,学生能够在此接触前沿技术、接受专业指导,因此她很建议学生来到研究院实习。此前,姜雪的同门师姐郑澄瑜也曾在研究院实习且收获颇丰(点击这里阅读郑澄瑜的实习故事)。在导师的全力支持下,姜雪开始了在微软亚洲研究院的科研之旅。
初入研究院,姜雪用“一张白纸”来形容自己——对深度学习的了解有限,也没有完整经历过全流程的科研工作。2021 年恰逢基于深度学习的音频编码蓬勃发展,微软亚洲研究院也开始在该领域进行持续探索,多媒体计算组的很多项目都围绕实时通讯场景下传输音频中出现的各种问题展开。
遇上全新的方向,姜雪开始从头探索。在微软亚洲研究院高级研究员彭秀莲和研究员薛华颖的指导下,姜雪聚焦音频通讯场景下的编解码问题,研究在同等码率下,如何使解码出来的音频质量更好。当时,这个方向在领域内尚属蓝海。
创新总是与挑战并存。在没有源码、参考文献也很少的情况下,不管是写代码还是搭框架,一切都需要从零开始。姜雪和研究院的新方向一起成长,一步步解锁科学研究新地图。目前,在多媒体计算组的努力下,音频在 3kbps 下已达到 near-transparent 的听觉质量,也最先在实时通讯的场景下实现了 1kbps 还能达到远高于 Lyra 3kbps 的听觉质量。
“姜雪是我们这个方向探索的中坚力量,和我们一起完成了许多重要工作。”彭秀莲这样评价姜雪的贡献。姜雪参与了抗丢包恢复算法、回声检测算法等多个 Teams 语音通信项目的研究,后期还设计实现了基于 TFNet 框架的新一代实时语音编码器,性能远超越传统语音编码器,并以此展开了超低码率及 scalable 语音编码器研究。在与 Teams 团队合作优化的过程中,姜雪也做了很多模型训练的工作。与美国 Teams 产品团队的协作也让姜雪收获颇丰,产品团队立足产品工程的视角,为科研提供了新的思路。“真正感受到了产品与科研的相互促进”,姜雪说。
实习的一年半转瞬即逝,姜雪硕果累累,在包括 ICASSP、INTERSPEECH 等在内的语音研究领域顶级会议以第一作者的身份发表了多篇学术论文。姜雪坦言,自己最初并未想好是否读博,这段实习经历直接影响了她的决定。
“我适合做科研吗?”回想起一年半之前的问题,姜雪找到了答案。
亦师亦友,绽放女性科研光芒
从学术小白到独当一面,mentor 们在姜雪的成长中扮演着重要角色。实习期间,姜雪的两位 mentor 彭秀莲和薛华颖扮演着亦师亦友的角色。从学术指导到情绪辅导,她们关心实习生方方面面的成长,也作为榜样引领着姜雪的科研之路。而这个全女性的组合,也绽放着她们独特的科研光芒。
彭秀莲关注视频编码领域,在编码方向上非常有经验。在姜雪看来,秀莲是一个细致的“实干派”,会基于自己的经验提出方向和目标,不断提出一些可以尝试的地方。从初期调研,到写代码完成实验,再到分析实验结果,每一次进展间都穿插着密集的讨论,二人共享着探索成功后的兴奋感与成就感。
由于秀莲此前也未曾涉猎音频编码领域,二人在新方向的探索初期难免遇到一些问题。秀莲会根据自己的经验,耐心帮助姜雪分析当前问题和解决思路,姜雪提起一次令她印象深刻的瓶颈期,尽管她参考了过往相关论文的方法,解码出来的音频质量却仍不理想。姜雪疑惑:明明感觉所有的地方都很合理,为什么结果就是不对呢?是解码端不够强大,还是量化做得不合理?在秀莲的建议下,她重新阅读了所有相关论文,仔细对比了不同论文输入音频数据的处理细节,最后将问题定位到音频数据的分帧步长。做出相应调整后,问题迎刃而解。“她真的很牛”,姜雪反复赞叹。
至今,姜雪仍对遇到困难时与秀莲一起头脑风暴的场景记忆深刻。秀莲站在白板前梳理难点的身影让姜雪觉得“做科研的女生真的很酷,我也想成为这样的人”。
另一位 mentor 薛华颖则是姜雪心中“最有能量的姐姐”,从如何使用编码工具到如何做好学术分享,薛华颖亲手带她推开学术的大门。在共同制定研究方案、分析问题、验证结果的过程中,研究思路在思维的碰撞中迸发。
作为女性研究员,华颖对情绪的感知也十分细腻。科研进展缓慢时,姜雪初期容易陷入低落情绪中。华颖敏锐地察觉到姜雪的焦虑,主动开导姜雪静下心来分析问题。两人时常进行朋友般的聊天。华颖将自己定位为忠实的聆听者,“我会先以同理心开导她,表示感同身受,其次是鼓励以平常心对待,化焦虑为动力,最后是跟她一起直面瓶颈。我们会跳出来去看一些别人的工作,试图跳出当前的思维困境。”
除了科研能力的提升,姜雪的另一大收获便是培养了稳健的技术心态。“做科研就是这样,不可能一直很顺,翻过一个坎之后一定会是一个瓶颈期。只需要关注自己问题的本质,别的不用考虑太多。”
姜雪将学术路上遇到的导师视为自己的榜样。在学校,导师张远是姜雪的科研启蒙。她关注行业前沿,并鼓励自己的学生多探索,对图像、编码等每一个领域都有所了解,打好基础再选择自己感兴趣的领域。在秀莲和华颖的影响下,姜雪也越来越坚定对自己科研想法的信心,持续探索、耐心调整。导师们对科研的极致追求也激励着姜雪更加努力,未来,她希望自己也能成为“科研品味很好、能主动有一些新发现”的女性研究员。
一直全身心投入一件事,总会有所收获
在科研方面,姜雪从不认为自己是“天赋型选手”,但她相信天道酬勤。无论是本科四年保持综测第一,还是一年半发表多篇论文,她将这些都归为“习惯性努力”带来的收获。
姜雪就读于距离微软亚洲研究院 30 公里远的中国传媒大学。从研一下学期开始,为了避免八通线脚不沾地的早高峰,她会在大多数工作日的七点多钟出现在地铁站,在地铁上听听歌放空大脑。在研究院的一天里,她或是在开会,或是在做实验。晚饭后回到学校,她还会前往实验室,总结自己一天的收获。姜雪认为自己最大的优势就是一旦专注某件事,就会全身心投入,秀莲和华颖也不约而同地用刻苦勤奋、坚韧不拔来形容她。
科研占据了姜雪生活的绝大部分时间,但她并不因此而疲惫。姜雪喜欢简单的生活,也越来越习惯在研究院形成的科研节奏。读博期间,她还打算保持这样不松不紧的节奏,“否则再想捡起来就比较困难了”,姜雪说。周末的闲暇时间里,姜雪还会和学校实验室以及研究院的伙伴们一起约饭、逛街、运动。未来她也计划在继续全身心投入科研的同时多多参加活动,丰富自己的读博生活。
回顾自己在微软亚洲研究院的时光,姜雪充满感激。她也希望未来能延续和研究院的缘分,继续音频/语音+AI领域的研究,带着在此培养的科研能力和技术心态继续自己的研究旅程。
Mentor寄语
在这一年多的时间里,姜雪在 MSR Asia Media Computing 组基于深度学习的音频编码方向做出了非常优秀的工作。她以第一作者的身份发表了多篇文章,将高质量的实时语音编码推到了很低的码率,并不断地尝试更多的突破。姜雪身上所体现出来的扎实的态度,勇于探索和永不放弃的精神给我留下了很深的印象,希望未来她继续努力不断探索,在音频/语音+AI 领域做出更大的成就,成为一个杰出的女性研究员!
在过去短暂的一年半时间里,姜雪在 MC 组做出了一系列优秀的研究工作,并在包括 ICASSP、INTERSPEECH 等在内的语音研究领域顶级会议以第一作者的身份发表多篇学术论文。她参与了组里多个 Teams 语音通信项目,包括抗丢包恢复算法、回声检测算法的研究。后期作为主力成员,主导了深度学习的语音编码器算法研究。
她设计实现了基于 TFNet 框架的新一代实时语音编码器,性能远超越传统语音编码器,并以此展开了超低码率及 scalable 语音编码器研究。她身上所体现出来的对科研的热情以及无畏科研困难的勤奋刻苦的态度令我印象深刻,祝愿姜雪在未来的研究道路中更加自信地前行,做出更有影响力的工作,成为该领域杰出的女性研究员!