a tall building lit up at night

微软亚洲研究院

梁傑然:长期主义研究者的心法秘诀

分享这个页面

编者按:近期,微软亚洲研究院高级研究员梁傑然(Mike Liang)关于 AI 模块化研究的论文“On Modular Learning of Distributed Systems for Predicting End-to-End Latency”刚刚被国际顶级网络领域学术会议 NSDI 2023 接收。一个多月前,梁傑然此前的研究工作“Design and Evaluation of a Versatile and Efficient Receiver-Initiated Link Layer for Low-Power Wireless”还荣获了国际移动计算和感知领域顶级会议 ACM SenSys 2022 时间检验奖(Test of Time Award)。

一项研究成果,经受住时间的检验,十二年之后再获认可,这对研究员来说是一种怎样的体验?梁傑然是如何做到持续创新与坚持长期主义研究的?现在的他又有着怎样的研究愿景?


微软亚洲研究院高级研究员梁傑然(Mike Liang)
微软亚洲研究院高级研究员梁傑然(Mike Liang)

2010年,还在博士求学阶段的梁傑然(Mike Liang)成为了微软雷德蒙研究院刘劼博士和赵峰博士的一名实习生。实习期间,梁傑然了解到研究院有一个研究课题是借助传感器实现数据中心环境的数字化,而这恰好也是他的专业方向和兴趣所在。“物理世界中有太多的现象,比如声、光、热、力、电,虽然我们能够看到和感受到,但却无法更进一步地理解。我博士期间的专业就是传感器网络。当时这个领域的同学们都有一个梦想,希望可以在物理世界部署大规模传感器网络来达到实时数字化,并透过无线方式将感知的数据传输存储起来,从而更深度地理解物理世界。”谈及开展相关研究工作的初心时,梁傑然说。

那时对于数据中心来说,温度的精确感知和散热是一个丞待解决的大问题。为了防止数据中心过热,业界通常的做法是将冷却系统的温度调至最低,但这会产生高昂的电力成本,几乎一半的电费都花在了冷却系统上,造成了巨大的资源浪费。因此,微软雷德蒙研究院的研究员希望通过设计和部署上千个无线传感器,来理解数据中心热分布和预测变化,精准控制冷却系统的温度。

然而,利用传感器收集数据,再通过无线网络传输数据,这一过程本身也是一个巨大的挑战,如何实现超大规模的低功耗无线通讯又成了新问题。对此,不同的研究机构提出了五花八门的解决方法,底层架构研究的混乱也让上层的应用变得困难。“我们通过系统化的研究和梳理,将我们的发现和洞察提炼总结,最终给无线研究人员提供了一个统一且优化过的无线通信网络架构。其他研究人员可以直接在这个底层架构的基础上进一步进行创新研究。”梁傑然介绍道。

最终,这项开创性和基础性兼具的研究工作“Design and Evaluation of a Versatile and Efficient Receiver-Initiated Link Layer for Low-Power Wireless”经受住了时间的检验,在国际移动计算和感知领域顶级学术会议 ACM SenSys 2022 上获得了时间检验奖(Test of Time Award),得到了研究界的肯定。正如 ACM SenSys 大会对这项工作所做的评价:“2010年,该研究工作率先实现了在低功率无线通讯中利用同步传输在 MAC 层的优势,来突破低功率无线电的极限。在过去12年的时间里,这项成果为许多物联网和嵌入式系统奠定了无线通讯协议的基础。”

梁傑然2010年的研究工作荣获国际移动计算和感知领域顶级会议 ACM SenSys 2022 时间检验奖(Test of Time Award)
梁傑然2010年的研究工作荣获国际移动计算和感知领域顶级会议 ACM SenSys 2022 时间检验奖(Test of Time Award)

加入微软亚洲研究院,与有趣的人做有趣的事

“毕业后,虽然有多个选择,但我只想加入微软亚洲研究院。我想与更多有趣的人做有趣的事,这里也满足了我对人生的期许。”微软亚洲研究院对梁傑然的吸引力,一方面来自于身边那些背景各异、专业不同的同事们。他们有的喜欢硬件,有的专攻操作系统,还有的深入算法研究,等等。在梁傑然看来,这会是一个“有趣”的组合。另一方面,微软亚洲研究院自由的科研氛围给每一位研究员都提供了足够的空间和资源去做自己“感兴趣”的研究,让梁傑然可以一展身手,尽情施展自己的理想和抱负。

“一方水土养育一方人”。梁傑然在宝岛出生,加拿大成长,美国完成博士学业。经历丰富的他一直非常同意这句话的含义——每一个人都有着自己独特的性格、喜好,和擅长的技能。而现在,在微软亚洲研究院多元包容的研究氛围中,他对这句话有了更多的理解。他意识到不同背景的人,思维观念不同,对于同一个问题的解读方式也会有所不同。

底层思维的转变让梁傑然对研究工作有了新的认识,他愿意花更多的时间去倾听别人的想法,而不是一味输出自己的观点,并激发大家把自己的优点发挥到极致。比如,团队中有实习生对代码有很极致的追求,这无形之中促使了团队在系统工程上有了更深的认知,发现很多新问题。再比如,来自统计学专业的实习生给团队正在做的 AI for Systems 研究带来了数学思维。梁傑然非常享受这种可以和这些“有趣”的人一起做更多“有趣”的事的状态。

梁傑然(右一)与实习生合照
梁傑然(右一)与实习生合照
梁傑然(左一)与系统和网络研究组同事合照
梁傑然(左一)与系统和网络研究组同事合照

多角度研究一以贯之,让人人皆可编程的云成为现实

从2011年到现在,梁傑然在微软亚洲研究院度过了十余个春秋,取得了多项研究成果。作为低功耗无线通信研究的延续,梁傑然在正式加入研究院之后又实现了从硬件到软件的多项创新,并和微软雷德蒙研究院刘劼博士的团队一起将其应用在微软的多个数据中心,推动了微软 Azure 对数据中心在环境监控与低碳排放的研究。

伴随着智能手机的流行,梁傑然找到了新的研究兴趣。“智能手机最酷的一点是其上可以承载各种各样的应用程序,而这让‘人人皆可编程’成为了一种趋势。”但由于每个人的编程质量参差不齐,大量的应用程序难免会产生很多 bug。为了保证最终用户的应用体验,就需要人工对应用商店中成千上万的应用进行审核,但这不仅效率低且质量无法保证。对此,团队和微软雷德蒙研究院的 Ranveer Chandra 博士萌生了自动化审核的想法,并开始借助机器学习技术开发审核工具。利用自动化审核工具,机器会进行一轮初筛,淘汰那些问题明显的应用程序,然后再将剩余应用交由人工审核,大大减轻了审核人员的压力。梁傑然和团队还曾发表题为“How to Smash the Next Billion Mobile App Bugs?(如何解决下10亿个 App 的漏洞?)”的论文,以期籍由机器学习驱动的技术,让人人都能开发出高质量的应用程序。相关的一系列研究也推动了业界对应用程序审核机制的创新。

近年来,梁傑然又看到了人工智能技术在“人人皆可编程”下的更大潜力,转入系统和网络研究组,主攻 AI for Systems 方向的研究。在梁傑然看来,云计算的发展让每个人都能方便、快速地获取计算资源。未来,云计算势必是世界上最强大的计算系统之一。虽然云看起来使用简单,只要根据需求购买相应数量的虚拟服务器即可,但事实并非如此,它还会涉及一系列的分布式编码、配置、运维的专业问题。例如,使用哪种类型的虚拟服务器更能满足业务需求?每台虚拟服务器适合运行哪些业务应用?虚拟服务器之间如何分布式运行?业务高峰低谷时如何平衡资源?不仅如此,还需要优化配置应用参数以更好地利用云资源,更要防止一台虚拟服务器发生意外对其它虚拟服务器造成影响。解决这一系列问题都需要专业知识。随着机器学习算法愈渐成熟,梁傑然在 AI for Systems 的研究可以利用机器学习和 AI 等技术,使云上的资源能自主地适配用户应用的负载需求。最终,云的这个自主性将帮助所有人都能更方便地编程世界上最强大的计算系统。

与此同时,从和产品组合作中,梁傑然和团队深刻地体会到机器学习理论和实际系统问题的差距。云原生系统普遍有着高度的复杂度、规模和行为动态变化。当学习对象发生变化时,需要花费数小时甚至数天重新收集系统数据再训练 AI 模型,而且在这个过程中还会产生巨大的成本。在 AI for Systems 的模型学习中,他们发现云系统的复杂变化其实有规律可循。比如系统上有十项云服务,某一周更新其中的一项,虽然这会影响整个系统,但理论上更新只是更改了其中仅一个服务的编码配置。同样的道理也适用于云服务的扩容。因此,AI 模型也只需要相应地修改变化部分即可,这就是模块化。“模块化的思维方法让我们重新思考以往 AI for Systems 的落地,从而促使我们在范式上进行革新。”梁傑然说。

基于这些发现,梁傑然和团队提出了 Fluxion,一个通过模块化学习建模端到端系统延迟的框架。Fluxion 引入了新的抽象学习分配,允许对单个子组件进行建模,而不用对整个系统进行端到端延迟建模。并且通过统一的界面,该方法可以将多个异构学习任务组合成一个推理图,动态地对复杂的分布式系统进行建模,显著降低了成本和延迟。相关论文“On Modular Learning of Distributed Systems for Predicting End-to-End Latency”已被国际顶级网络领域学术会议 NSDI 2023 接收。

Fluxion 的架构图
Fluxion 的架构图

此外,梁傑然和团队还在着手进行其他的研究,来实现云上资源的自主适配性。除了大规模的自动扩容技术,还包括 AI for Processors 技术。例如,云上运行的数据库和网页服务器对芯片有着不同的要求,而它们却被同一块通用芯片以同样的方式运行。如果芯片不能及时做出优化,那么理论上这些软件的性能就会被极大影响。梁傑然和团队希望使用 AI 技术让通用芯片更深刻地理解正在被执行的指令(或低阶机器语言),来自主地针对不同的场景做出不同的调整。

为实现“人人皆可编程”的愿景,梁傑然和团队从多个角度不同方向探讨云资源的自主适配性。其中部分研究成果如今已经融入到微软的产品和服务中,如微软必应(Bing)搜索产品中,通过自主优化数据缓存,最终提升了终端用户的体验,让梁傑然的愿景逐渐成为现实。

以三年为界,不断地试错与调整

无论是获得 ACM SenSys 2022 时间检验奖的无线感知研究,还是“人人皆可编程”的愿景,每次研究赛道的转换,梁傑然都选择将长期主义的理念灌注于研究工作之中。为什么梁傑然一次又一次地选择这种短期内无法实现突破性成果的研究?

“这还是要回归到我的理念:与有趣的人做有趣的事。计算机行业瞬息万变,热门的问题也在时刻变化。但我觉得更有趣的是三年之后有可能发生的行业趋势。这一定程度上是一个赌注:赢了,我们就比其他人早走了几步,甚至有可能带来范式上的转变;即使失败了,三年的时间也有一定的容错空间,可以让我们再次调整,重新选择赛道。”梁傑然特别喜欢微软杰出科学家 Phil Bernstein 对于科研的反思——我们应该关注研究成果究竟能对学术界或产业界的未来3-5年带来什么样的推动和改变,而不是每年发了多少篇论文。

“更重要的是,微软亚洲研究院一直鼓励长期投资,做有影响力的研究,并创造了一个多元包容的科研氛围。这让我可以和背景不同的同事们形成‘有趣’的组合,一起做‘有趣’的研究。”

mike-liang-6

工作之余,梁傑然还是一位网球高手,这项“有趣”的运动他也坚持了十多年,既获得过阶段性的荣誉,也在努力向着长远的联盟球队第一的宝座进军。梁傑然(右一)和微软中国网球俱乐部的同事一起在海淀区重点企业网球俱乐部比赛中获得佳绩。

相关论文链接:

1. Design and Evaluation of a Versatile and Efficient Receiver-Initiated Link Layer for Low-Power Wireless

2. How to Smash the Next Billion Mobile App Bugs?

3. AutoSys: The Design and Operation of Learning-Augmented Systems

4. On Modular Learning of Distributed Systems for Predicting End-to-End Latency