微软亚洲研究院“明日之星”实习生项目

实习派 | 林郅琦:找到真正痛点,在大模型时代发挥系统研究的奠基性价值

分享这个页面

“要干一票大的”,这是林郅琦初入微软亚洲研究院实习时定下的目标。从 2018 年到 2024 年,通过微软-中科大联合培养博士项目,林郅琦在研究院度过了宝贵的六年时光,也收获了科研上的全方位成长。

除了产出有影响力的科研成果——以第一作者身份在系统领域顶级学术会议 OSDI 2024 和 HPCA 2024 上发表两篇论文,林郅琦还在 mentor 的指导下探索如何在大模型时代发挥系统研究的奠基性价值,他们团队开发的系统已成功应用于微软内部多个研发团队。

系统研究的道路艰难复杂,在微软亚洲研究院联培深造的这几年,林郅琦不断锤炼科研本领,拓展能力边界。站在毕业这一规划未来的关键节点,林郅琦希望能继续攀登系统研究的高峰,带着从微软亚洲研究院收获的科研能力和视野,做对社会真正有影响力的研究。

林郅琦在 HPCA 2024 会场
林郅琦在 HPCA 2024 会场

跨组合作发现真实痛点,发挥系统研究的奠基价值

联培的模式给予学生充分的自由去探索和尝试。“在联合培养的第一年,我在导师的带领下广泛涉猎了很多方向,扩展了科研的视野,然后找到了想深入探索的方向。”林郅琦说。第二年,在 mentor 微软亚洲研究院高级研究员苗又山博士的指导下,林郅琦开始专注于分布式系统的研究。

“第一年的探索对我来说至关重要,”林郅琦表示,“它不仅让我了解了 MSRA 在哪些领域有所布局,更让我了解到组与组之间潜在的合作机会。”

这种打破边界的跨组合作,为林郅琦提供了一个难得的科研契机,也奠定了他整个联培期间的研究主线。

模型规模的增大可以提高它的表达能力和性能。然而,当时研究院使用的工具只能针对特定类型的模型,无法满足更广泛和多样化的需求。因此,苗又山和林郅琦意识到,他们可以通过设计更灵活的系统来支持其他研究团队对前沿模型的探索。

“在合作的过程中,我们才能发现真正的痛点在哪里。”通过与算法专家的合作,他们认识到分布式系统在大模型训练方面的痛点——尽管系统专家与算法工作者各有所长,但由于缺乏相互理解,工作难度骤增。他们希望设计一个易用的系统,将算法工作者和系统专家分开,使算法工作者只需关注算法定义,而不需要考虑在设备上的执行方式。

nnScaler 项目让林郅琦认识到从“理论”到“落地”需要付出的努力以及可行的路径。“尽管某些问题在论文中看起来很简单,但在实际工程中却十分复杂,需要精心调试。”目前,他们团队开发的系统已成功服务于多个研发团队,取得了很好的应用,体现了系统研究在大模型时代的奠基价值。

这套系统不仅大幅提升了训练速度,还扩展了支持模型的范围。更值得一提的是,他们突破了传统并行技术的思维框架,展现了更广阔的并行方案搜索空间,为未来的并行计算领域提供了新的思考方向。这些创新成果不仅为算法工作者提供了更高效的工具,也为整个领域带来了新的启示和可能性。

厚积薄发,在不断试错中找到科研的 “Aha Moment”!

科研之路总是充满挑战。相较于专注某一领域的深度研究,系统开发要求研究者具备更广泛的知识面和更长久的学习耐心。它涉及整个技术栈,从底层硬件到上层应用算法,都需要有所了解。

在林郅琦的科研征程中,最大的难题在于精准地把握系统问题的核心。微软亚洲研究院院长周礼栋博士的指导让他印象深刻:在系统研究中,“问题意识”至关重要。成功界定问题,往往意味着研究工作已成功一半。这一理念深深烙印在林郅琦的心中,指引着他的研究方向。博士生涯的前两年,他反复思考“为什么别人需要你做的东西?”这一问题。

定位问题的过程也是挑战认知边界的过程。这不仅需要研究者对整个领域有深刻的理解,还需勇于挑战自己固有的“直觉式”想法和方案。

“老师们一直在说一个词:‘Aha moment’,也就是在某一个时刻你突然看清楚了问题的本质。而当这一刻到来的时候,你就知道,你干的事一定会成功。” 林郅琦在系统的众多具体问题间来回穿梭,努力捕捉那一瞬间的“Aha moment”。

经过两年的默默耕耘与不懈探索,林郅琦终于迎来了属于他的 “Aha Moment” ——他们发现,系统设计的根本问题是并行技术组合的力度问题。“发现了这个问题的那一瞬间,我就知道这个东西肯定能做出来。”

发现了他们的 “Aha Moment” 半年后,林郅琦的论文就被 OSDI 会议接收,迎来了属于他的丰收时刻。

微软亚洲研究院副院长、系统方向负责人、郅琦的mentor 之一杨懋博士赞叹郅琦在研究中展现出的问题洞察力:“郅琦同学不仅工程能力很强,他在多年的学习积累后,对复杂系统设计和性能优化中的关键性问题有了独到的洞见。”

苗又山博士则评价:“郅琦是一个优秀的系统工作者,他是能真正沉下心来做一个长久的研究的,遇到了困难也非常有韧性。”

薪火相传,在共同探索中建立深刻的师徒情谊

以院长周礼栋博士为代表,微软亚洲研究院在系统研究领域积累颇深。林郅琦也在这样的土壤中不断成长。“不论是何方向、何级别的研究员,都会真诚地指导我的科研工作。”

nnScaler 项目的研究团队合影
nnScaler 项目的研究团队合影

谈及 mentor 们对自己的指导,林郅琦认为微软亚洲研究院副院长杨懋博士是一个“具有前瞻性的大佬”,他提出的问题总是直指核心,促使林郅琦对课题进行更深入的思考;微软亚洲研究院资深首席研究员杨凡博士经常会对郅琦的项目提出一些高屋建瓴的指导,引导整个研究方向。

微软亚洲研究院高级研究员苗又山博士则是郅琦系统研究的“领路人”。“苗老师技术水平特别深,从底层硬件到上层算法,他都非常了解。我入门整个分布式的一套知识体系,都是在又山老师的指导下慢慢完善的。”

苗又山同为科大-微软联培毕业生,师出同源,他亦以同样开放而灵活的方式指导林郅琦:摒弃固定会议的形式,根据林郅琦的需求提供指导和解答疑惑。“事实上,我们的互动方式很像同学,是在共同探索问题。”苗又山说。他还为林郅琦制定了长期规划,确保他的研究能够持续、深入地进行。“我们会对每一个联培同学的学术生涯负责,希望他们不是仅仅在做短平快的研究,而是长期能有一个很好的发展。”

林郅琦在中科大导师李诚教授则是他攀登科研高峰的坚实后盾。除了在科研上一直保持着合作关系,李诚教授也很关心林郅琦的未来科研之路。“李老师非常关心我,有什么事情都会想到我,比如实验室的各种研讨、交流,对我有帮助的活动,都会拉上我一起参加。”郅琦对此十分感激。

林郅琦与 mentor 苗又山(右)、杨懋(左)合影
林郅琦与 mentor 苗又山(右)、杨懋(左)合影

回望前路,在顶级科研环境中感悟人生智慧

经过博士期间的训练,临近毕业的林郅琦已经成为了独当一面的科研工作者。他认为“思维模式”是自己这几年最大的收获:“在我看来,读博最重要的目的不是发文章,这只是一些附加产品,更重要的是锻炼自己的思维能力。在微软我每天都在学习如何完善自己的思维链条,严谨有致的思维方式不光影响了我的研究,更影响了我在生活中处理方方面面的问题。”

苗又山也赞赏林郅琦经过这几年变得愈发地沉稳,不管是事业还是生活上,都能以一个更好的心态去对待。

林郅琦也鼓励学弟学妹们把握机会来研究院学习:“在这里能接触到计算机各个领域学术界和工业界最前沿的信息,也能拥有项目具体落地的经验。这是一个能够让你全面发展、迅速成长的平台。”

回望这几年的博士生涯,林郅琦感到无比充实和幸福。除了科研上的丰硕成果,他还在这里收获了许多珍贵的友谊。在劳逸结合的工作环境中,他积极参加这里的各种活动,和实习生朋友们一起享受桌游和运动的乐趣。最近,他还完成了自己的人生大事,迈入了婚姻的殿堂。未来,他将带着在微软亚洲研究院培养出的科研视野和能力,继续追求自己的科研梦想。

林郅琦和他的新婚妻子
林郅琦和他的新婚妻子

Mentor 寄语

text

祝贺林郅琦同学成功地完成了博士阶段的学业,你的坚定和努力让你在学术之路上取得了卓越的成就。自此,你即将走出象牙塔去迎接新的人生挑战。这是一段新旅程的开始,你的知识、技能和经验将为你铺平未来的道路,带领你走向更广阔的世界。无论这条道路通向何方,我们真切地希望踏出校门的林郅琦博士,在未来的职业生涯中依旧保持着对于科学探索的热情,不断成长,再创佳绩。祝你前程似锦,一切顺利!

text

郅琦同学在 2019 年加入微软亚洲研究院联培博士的计划中来以后,就一直专注在大规模分布式计算平台的研究。从最早的 GNN 计算平台到后面的为大规模深度学习训练设计的并行分布式计算平台,郅琦取得了一系列的成果,不仅在 OSDI 等系统顶级会议上发表论文,而且通过不断的理论和实践,为实际产品的技术演进做出了坚实的贡献。

text

作为计算机系统领域的博士研究生,林郅琦同学勇于突破传统,挑战既定现实。作为创始成员及核心开发者,郅琦和微软亚洲研究院的系统研究员和工程师一起研发了nnScaler这一人工智能时代急需的训练框架。该研究成果已在新一代人工智能模型的研发中得到应用,并已被顶级系统会议 OSDI’24 接受,这充分展示了郅琦同学扎实的专业功底和他在系统领域的天赋。