编者按:他,刚入职微软亚洲研究院一年,却有着丰富的学术合作经验;刚刚博士毕业,就有多篇论文被业内顶会收录并获奖;能够长期投入到一项研究课题中,并持续跟进三、四年;选定一个研究领域,层层递进,展开了多方面的研究;热衷于科学创新,坚持长期主义的研究理念。他是来自韩国的微软亚洲研究院研究员黄昶互(Changho Hwang)。
“在成为微软亚洲研究院的实习生之前,我对研究院的了解就是 ResNet(Residual Network,残差网络)的论文。在这篇论文中,微软亚洲研究院的研究员们首次引入了残差学习的思想,让 ResNet 成为了计算机视觉技术发展的一个里程碑。”黄昶互(Changho Hwang)说。
“前沿的技术研究,顶尖的创新人才”,是黄昶互对微软亚洲研究院的第一印象。
加入微软亚洲研究院,“以正确的方式做正确的事”
博士学业的第二年,黄昶互在韩国科学技术院(KAIST)导师的推荐下,成为了微软亚洲研究院的一名实习生。在2018年寒假与2019年暑期两个阶段的实习之后,黄昶互对微软亚洲研究院有了全新的认识,并且确定了自己博士毕业后的职业目标——加入微软亚洲研究院,从事更具前瞻性的技术研究。“当时有同学和同事给我介绍过其他实验室和公司,但是在微软亚洲研究院的实习经历让我非常明确,我更喜欢这里的工作环境和研究氛围,它能够让我专注于自己感兴趣的研究领域。”黄昶互说。
黄昶互表示,微软亚洲研究院最吸引他的一点是始终在以正确的方式做正确的事。微软亚洲研究院不会随波逐流地追逐技术的风口,而是有着独到的战略和研究方向,并一直将目光放在更大的蓝图之上,专注于探索前沿的技术研究。
此外,共事的同事以及研究院多元的研究方向,也是黄昶互选择加入微软亚洲研究院的重要原因。研究院有一群可爱且技术实力深厚的研究员,黄昶互实习期间的导师平易近人,在研究中给予了他自由的研究空间和极大的学术支持,在工作和生活中,同事们也都热情相助,这让身处异国他乡的黄昶互倍感温暖。同时,在微软亚洲研究院所进行的前沿探索中,不仅有与黄昶互的电气工程专业高度匹配的研究领域和项目,还有不少横跨领域/行业的科研方向,让研究员们有机会拓展研究的广度与深度。因此,2022年博士毕业后,黄昶互毫不犹豫地加入了微软亚洲研究院,成为网络与基础设施组(Networking Infrastructure Group)的一员。
聚焦提升AI系统性能:层层递进研究,持续打磨成果
实习期间,黄昶互所在团队的重点研究课题是优化支持人工智能模型运行的 GPU 的性能,当时黄昶互的工作比较明确,主要是探索如何通过软硬件协同设计来提高人工智能系统的吞吐量和利用率。然而,科学研究是一项长期工作,有些研究并不会在短期内就显现成果。作为一名坚信长期主义理念的科研人员,黄昶互在这项研究中并没有把自己当作匆匆过客,相反,在实习结束回到学校继续攻读博士学位的两年里,他仍然与微软亚洲研究院的团队保持合作,持续跟进这一课题。最终,他和研究院团队的研究成果获得了2022年 MLArchSys 大会的最佳论文奖。
论文标题:Towards GPU-driven Code Execution for Distributed Deep Learning
论文链接:https://chhwang.github.io/pubs/mlarchsys22_hwang.pdf
随着大模型的发展,GPU 愈发成为训练和部署人工智能模型的关键硬件,GPU 的性能和利用效率直接影响着人工智能的发展。因此,在成为微软亚洲研究院正式的研究员之后,黄昶互依然致力于这一方向的研究,而他的角色从曾经的项目参与者,转变为了项目的主导者。
黄昶互认为,如今最先进的深度学习应用需要大量并行的 GPU 提供充足的算力,但 GPU 和 CPU 之间的通信效率却制约着人工智能模型的性能。具体来说,在当前主要依靠 GPU 驱动的人工智能系统通信模式下,CPU 却扮演着总指挥的角色,CPU 负责给多个 GPU 布置任务,而 CPU 与 GPU 之间的消息传递存在可观的延迟,这就导致了任务执行效率的低下,造成了 GPU 资源的浪费。
黄昶互的研究目标与思路是希望 GPU 可以自己指挥自己,从而提升通信效率。为此,他和组里的同事们设计了一种由 GPU 驱动的代码执行系统,并开发了一种能够被 GPU 直接驱动的 DMA 引擎,让 GPU 能够自己解决原本需要 CPU 指挥的通信问题,降低了人工智能系统的通信延迟,提高了 GPU 计算资源的利用率。这种方法释放了之前通信模式下被占用的 CPU 资源,让 CPU 专注于自己的工作,也让 GPU 实现自主调度,做它最擅长的工作——给人工智能模型提供更高的算力性能。这项研究工作首次证明了基于分布式 GPU 的人工智能系统可以由 GPU 自己完成任务调度,相关论文已被2023年 NSDI 大会接收。
论文标题:ARK: GPU-driven Code Execution for Distributed Deep Learning
论文链接:https://www.usenix.org/system/files/nsdi23-hwang.pdf
“系统性能优化是一个永恒的话题。在过去的十几年中,我们见证了人工智能的快速发展,其中一个主要的驱动因素就是不断增强的算力支持。充足的算力让系统性能持续提升,也使得人工智能模型变得越来越大,功能越来越强。当前,提升系统性能的研究方向主要有两个切入点,一是提升 GPU 等硬件的性能,二是提出新的人工智能算法,但这两种方法都相当困难,并且硬件的设计和制造成本高昂。”黄昶互说道。
在这样的背景下,黄昶互和同事们提出了硬件与算法协同设计的方法,这或将是另一种提升人工智能系统性能的有效解决方案。因此,在证明了 GPU 可以自主调度,实现性能提升后,黄昶互将继续探索 GPU 的调度算法,避免调度冲突,进一步提升 GPU 之间的通信效率。黄昶互表示,“希望未来 GPU 不再需要额外的 DMA 引擎就能实现自主调度,从而推动人工智能系统性能再上一个台阶。”
“在微软亚洲研究院,我可以自由选择研究方向”
微软亚洲研究院一直以来所拥有的开放、包容、多元的研究文化,也对黄昶互有着巨大的吸引力。在研究院工作一年有余的黄昶互对这里有了更深刻的认识,“微软亚洲研究院更像是一个实验室,一个真正的研究机构,在这里,所有人都是平等的,所做的工作都是透明的,大家了解彼此的想法,思想上也能够保持同步。在研究院,我们有更大的自由度来选择自己的研究方向。”
除了在内部营造自由的学术氛围,微软亚洲研究院还在学术交流和人才培养方面,与包括韩国在内的全球学术界持续保持着紧密的合作。例如,微软亚洲研究院联合清华大学、北京大学、新加坡国立大学、首尔国立大学等多所亚洲地区高校成立了 OpenNetLab 开放网络平台联盟,以推动人工智能在网络研究中的应用与发展,黄昶互在 KAIST 求学时的导师就参与其中。再如,持续了十多年的面向韩国高校人才培养和学术研究的 MSIT 项目,为微软亚洲研究院与韩国学术界搭建了学术交流的桥梁,通过合作项目,学者们开展了深入的科研合作,并丰富了全球计算机领域的人才储备。黄昶互在微软亚洲研究院实习后也参与了一个学术合作项目,相关论文还获得了2021年 APSys 大会的最佳论文奖。
论文标题:Accelerating GNN Training with Locality-Aware Partial Execution
论文链接:https://dl.acm.org/doi/10.1145/3476886.3477515
作为微软亚洲研究院乃至整个计算机学术生态体系的一部分,这些多样的交流与合作项目不仅产出了众多前沿的科研成果,也成为了众多学者和学生与微软亚洲研究院结缘的起点。以韩国为例,截至目前已有超过150多名来自韩国的跨学科人才在微软亚洲研究院进行过实习,也吸引了像黄昶互这样的优秀人才,成为了微软亚洲研究院的正式员工。
坚持长期主义研究的心得
科学研究之路道阻且长,坚持长期主义研究、行而不辍并非一件易事。除了本身执著的性格之外,黄昶互也有自己的方法和心得。
黄昶互认为从事科研工作,首先要对研究事业保持高度的热情,比如他自身就十分享受科学研究中发现问题、解决问题的整个过程。“有些工作的目标是找到避开问题的最佳方式;而科学研究的目标是找到问题、直面问题、解决问题。我更享受从发现问题到解决问题的科研过程。”黄昶互说。
而在长期研究中难免会遇到阻碍,或者结果达不到预期,例如黄昶互的研究论文也曾被所投大会一次次拒之门外。面对这种情况,“不要气馁或是怨天尤人,而是要反思自己,复盘已有工作,找出其中的问题,再投入新的研究。”黄昶互认为,“这是一个说服自己的过程,要让自己看到研究的价值。”
当面对研究困境时,黄昶互表示,不能画地为牢,将自己困于当前的问题中,而是要学会放松自己,例如他会弹弹钢琴,或者与他人谈心交流,以此来摆脱桎梏,转换思路也许问题就能迎刃而解。