编者按:他曾是微软亚洲研究院的“首席实习生”,也是2019届微软亚洲研究院与中国科学技术大学的联合培养博士生。经历了互联网行业的实践之后,他选择重回微软亚洲研究院,成为了一名多媒体计算组的研究员,同时也是微软亚洲研究院 Aspire 社团的核心力量之一。他就是江湖人称“潇帝”的李潇。
今天就让我们通过李潇的视角,了解一下微软亚洲研究院的 Aspire 究竟是一个怎样的组织,以及从“首席实习生”到高级研究员,李潇的心态和研究之路又发生了怎样的变化。
心理学研究表明,在陌生的环境中,人们常因不熟悉当地文化、语言和规则而感到迷茫、焦虑和不适。这种不适应会增加心理和情绪压力,进而影响个人的行为和表现。然而,对于像李潇等新入职的员工来说,他们在加入微软亚洲研究院后却并没有这样的困扰。
“尽管我在正式加入微软亚洲研究院之前已经有过一段较长的实习经历,但在从事产品开发一段时间后重新回归学术研究,在过渡的过程中,我仍面临了一些挑战。借助 Aspire,我可以说是‘无痛’地渡过了适应期,重新融入了研究院这个大家庭。”李潇说。
回归微软亚洲研究院,Aspire让我“无痛”渡过适应期
李潇提到的 Aspire 是微软亚洲研究院为入职三至四年的年轻员工创建的一个内部社群。这个社群为年轻人提供了一个可以相互交流与合作的平台,帮助他们快速适应研究院的科研工作和文化,建立多元化的跨组合作氛围,并通过组织各种项目和活动促进个人成长。
在过去的两年中,李潇作为 Aspire 组织委员会的核心成员之一,与团队的伙伴们一起组织了一系列既富有趣味性又具有挑战性的社群活动,比如研究院年会上的智力游戏、运动会和创意工作坊等等。这些活动既为参与者提供了互动及展现个人才华的机会,也激发了大家的创造力,促进科研想法的交流,而且,还可以帮助新入职的员工们快速结识志同道合的伙伴。“我们曾组织过面向 Aspire 的冰壶体验和比赛,希望帮助新同事们提升团队合作能力。因为冰壶是一项既有趣,又能够锻炼身体,同时最重要的是对团队协作和战略思维要求极高的运动,所以在比赛中,队员们需要共同制定战术策略,相互支持与沟通。”李潇说。
Aspire 还鼓励新员工大胆表达自己的想法和建议,为微软亚洲研究院带来新鲜的视角和活力,促进不同代际科研人员之间的思想碰撞。在微软亚洲研究院成立25周年的庆祝活动中,李潇和其他 Aspire 组织委员会的成员们共同策划了一场名为“共筑未来城”的活动——借助研究院内部团队建设的机会,让所有员工对未来城市进行一次大胆预想。活动中,每位参与者都为这座微软亚洲研究院的“未来城”贡献了自己的一砖一瓦,共同构建了一个充满创新与梦想的科技乌托邦。
此外,Aspire 还为年轻员工搭建了与研究院管理层沟通的桥梁,帮助管理层更快、更好地理解年轻员工的需求和想法,为研究院的发展建言献策。Aspire 会定期举办线上线下沟通会,建立年轻人自己的交流沟通渠道。在 Aspire 组织里,没有新老员工或是上下级的单向教育,年轻的研究员们可以畅所欲言,内容涵盖年轻群体的兴趣点、当下科研的新趋势、对研究院研究氛围和变化的看法、对学术领域和科研环境的观察等多个方面。同时,为了更好地营造开放、包容的文化,Aspire 还会不定期开展问卷调查,让每一位年轻的 Aspire 成员都能有机会提出自己关注的问题,发出自己的声音。通过 Aspire 这一平台,研究院的管理层能够及时了解年轻员工最真实的需求和遇到的挑战,确保相关问题能够得到快速的响应和解决。
“在我看来,研究院希望通过 Aspire 这个平台,鼓励、激发我们这些年轻人在工作和生活中保持热情,发掘科研工作与日常生活的美好,以更舒适的方式投身于所热爱的事业中。事实上,Aspire 确实拉近了我们与不同领域同事之间的距离,使我们能够自由提出创新的想法和研究需求,也可以直接向管理层反馈建议。参与各种社群活动的过程不仅减少了我们在陌生环境中的迷茫和焦虑,还增强了我们对研究院的归属感与责任感。”李潇表示。
从“首席实习生”到联培博士,探索AI在图形学中的应用
虽然2020年才正式成为微软亚洲研究院的研究员,但李潇可是研究院的一位“老人”了。李潇与研究院的缘份始于十几年前,当时还在中国科学技术大学读大四的他,加入了研究院的网络图形组,开始了他的实习之旅。这段经历让李潇有机会与敬仰的学者们近距离交流,也为他积累了宝贵的知识和经验。本科毕业后,李潇凭借出众的能力入选了中国科学技术大学与微软亚洲研究院的联合培养博士生项目,这一决定改变了他原本计划出国深造的人生轨迹。
“追求高水平的技术研究才是我的最终目标,微软亚洲研究院作为一个国际化的顶尖研究机构,为我提供了与世界级科研人才共事的机会以及理想的学习和研究环境。”从那以后,李潇就一直在深度学习、计算机图形学等领域的最前沿进行探索。
2015年 ResNet 的提出,标志着深度学习在计算机视觉领域的重大突破,随后深度学习技术很快便受到了学术界的广泛关注,并逐渐在多个领域开始普及应用。李潇所在的微软亚洲研究院网络图形组便是最早一批将深度学习技术应用于图形学研究的团队。2017年,李潇作为第一作者在图形学领域的全球顶级会议 SIGGRAPH 上发表了论文。该论文是早期探索在图形学领域直接利用深度学习技术识别图像材质的方法之一,给后续研究带来了全新的视角和思路。2019年,李潇和 Mentor 一起就三维生成技术进行了更深入的研究,其中关于使用多投影生成对抗网络、利用无标注图片生成三维物体的论文,被计算机视觉领域的全球顶会 CVPR 接收。
2019年6月,在完成了近六年的学习并从中国科学技术大学博士毕业后,李潇也从微软亚洲研究院“毕业”了。面对人生的新选择,李潇决定先去更接近生产实践的互联网公司,更紧密地接触用户,了解用户的需求,研发更多符合用户需求的产品和技术。
重回微软亚洲研究院,为多模态大模型构建媒体基础
经过在互联网企业的历练,李潇深刻体会到用户需求的多样性和变化的迅速。他意识到,在快速变化的市场环境中,单纯依赖人力和功能堆砌的方式难以持续且高效地满足用户需求。他认为,更通用且普适的创新方法——尤其是更加通用的人工智能模型——是应对这一挑战的关键。这种洞察驱使他回到科研的最前线,重新加入微软亚洲研究院。
“微软亚洲研究院清楚地知道哪些研究领域是有价值的,而且这里的研究不仅仅是为了发表论文,更是为了让前沿技术真正应用到不同的领域,对现实世界产生积极的影响。”李潇相信,通用型人工智能技术将极大提高多媒体内容创作的生产效率,并能激发人们的创作灵感。
回到研究院后,李潇加入了多媒体计算组,将自己在短视频平台研发工作中积累的经验运用到音视频理解与生成的前沿研究中,与组里的同事们共同探索构建多模态模型。他们的研究不仅限于理论层面,更着眼于将研究成果应用到实际产品中。比如,李潇和同事们开发的音频驱动口型重建技术,能够允许用户在视频会议中创建自己的虚拟形象,并通过语音驱动虚拟形象的口型,显著减少交流时的违和感,提升了用户体验。
在微软亚洲研究院全球研究合伙人吕岩的带领下,李潇和同事们在人工智能与多媒体研究的交叉领域也取得了突破,他们利用神经编解码器将视觉、语言和声音等多种信息类型转化为隐空间的神经表达。这种方法能够将复杂而含有噪音的现实世界,转化为能够捕获世界本质信息和动态变化的抽象表示,与纯粹依赖自然语言处理的大模型相比,它提供了一种更为多样和全面的信息理解方式。基于这一思路,李潇和同事们通力合作,验证了利用视频和音频数据构建全新的媒体基础(Media Foundation)的可行性,为构建人工智能的多模态模型开辟了新的研究方向。
“媒体基础与大语言模型一样,将成为构建通用型人工智能的关键组成部分。基于媒体基础的多模态模型能实现对文本、图像、语音、视频的深层次理解,并促进这些不同模态之间的流畅转换与互动。”李潇介绍道。
在多元包容的平台上,创造影响深远的科研成果
自2012年首次以实习生身份加入微软亚洲研究院,结识众多学术界大牛,到经历四年联合培养博士项目与顶尖学者深入交流,再到成为正式研究员参与多媒体计算技术的前沿探索,李潇的每一步成长也伴随着他对微软亚洲研究院认知上的刷新。
如今,微软亚洲研究院汇聚了全球顶尖人才,不仅包括计算机科学领域的专家,还有来自不同领域和学科的多元化人才。“在这里,尽管大家背景各异,但我们一直都处于一个平等的讨论环境。无论是实习生、研究员,还是 Mentor 或者管理者,每个人都可以自由地提出问题、分享观点,不存在因等级或资历而产生的沟通壁垒。Aspire 则通过其组织结构有效地促进了这种文化的实践,它在帮助新员工快速融入研究院的环境同时,也促进了不同代际同事间的理解与合作,共同迈向我们的愿景。”李潇说。