2021年12月,微软亚洲研究院成立了理论中心,由微软亚洲研究院高级研究员陈卫博士担任中心主任。从高中第一次接触编程起,陈卫就对计算机产生了浓厚的兴趣并结下了不解之缘。在获得保送北京大学数学系资格的情况下,陈卫还是通过高考进入了清华大学计算机系,由此开启了计算机理论的学习与研究生涯。
在康奈尔大学读博时,陈卫的研究偏向分布式计算理论,这是他的第一个主要研究方向,也是他加入微软亚洲研究院系统组后持续探索的领域。在微软亚洲研究院工作的十九年中,陈卫参与过众多研究项目,从在系统组对分布式计算进行的论证和分析,到在理论组基于影响力最大化与在线学习和优化展开的系列研究,再到今天的理论中心,理论研究一直是他不变的初心。
那么,在人工智能大模型当道的今天,陈卫如何看待计算机理论研究的意义?微软亚洲研究院理论中心又将有哪些新的研究方向?让我们通过对话听一听计算机理论科学家陈卫的想法。
Q:如何理解计算机理论研究,它都包含了哪些内容?有怎样的作用?你为何在这个“冷门”领域深耕多年?
陈卫:计算机理论是一个横向概念,它以数学为基础和工具来研究计算机科学的各个方面。在传统的计算机科学中,理论是操作系统、编译原理、网页搜索、图形学等所有这些领域的指导基础,例如,算法理论、复杂性理论等。随着计算机技术的不断发展,理论方向又延伸出了深度学习理论、数据驱动优化理论等。如果特指计算机科学理论的话,那么就是指结合数学工具和计算机应用背景来设计优秀的算法,并在计算机上生成代码去运行和验证。
事实上,计算机科学理论是一个交叉学科,它并不是一个独立的学科。首先它以数学作为基础,需要用严格的数学概念和方法对计算进行建模和分析,数学中的代数、分析、概率论、统计学等都是重要的工具。其次,它也涉及物理学的很多方面,包括涌现、相变理论等。我研究多年的网络科学也是计算机理论的一个分支,而网络科学本身也是一门交叉学科,其研究对象——网络形态,不仅指人的社交网络,也包括神经网络、蛋白质互动网络等。此外,随着人工智能技术的发展,理论研究还要纳入心理学、社会学等社会科学,研究将更趋于综合性。
我从事理论研究20余年,对这一领域始终充满热爱的原因是我可以通过自己的分析能力来推导、发现新的算法和新的理论,从而证明技术的可行性。这种依赖理性的思维和分析帮助我们更好地认识世界和改造世界,是让我对理论研究着迷的原因和动力。
Q:GPT-4 的出现,进一步证明了人工智能模型越大性能越强的论断。那么,作为理论研究专家,你如何看待大模型?大模型对理论研究有什么推进作用?理论研究又能帮助大模型解决什么问题?
陈卫:大模型的横空出世带来了很多变革,也第一次在应用上让普通大众切身感受到人工智能的实用性。从理论研究看,对于人工智能这个黑盒子,我们更习惯于问一些问题,比如它为什么如此强大?它的能力边界在哪里?有什么它不能做的?
目前来看,数学计算和推理是大模型的弱项。以加法为例,大模型是从左到右地概率预测每一位数,而人类是从右向左计算,思路是相反的。即使模型明确知道加法规则,但其内部的生成也不会按照规则运行,这就是概率生成模型的一个能力边界。
在微软亚洲研究院理论中心,我们的研究人员认为目前的大模型及其前向预测与信息压缩相关。相当于大模型把反映人类语言的所有“网页”压缩在了一个模型中,其生成过程就类似于解压的过程。所以,我们正在利用基于压缩的计算复杂性理论来理解和分析大模型的训练和生成过程,希望通过这个研究能更准确地认识大语言模型的生成能力。
大模型还有一个重要特点就是它的“涌现”行为。比如在算数四则运算上,两位数以内的计算,初始模型可以给出的结果准确率会高一些,但要计算三、四位或更多位数的,就需要将模型参数变多、训练变长才可以,这就是模型的涌现特性。
我们正在研究探寻这种涌现是否有理论能够解释。一个可能的理论是网络模型,其实涌现行为在网络科学、物理学中经常出现,我在网络科学方面的研究让我对网络中的涌现行为有比较深入的理解。我们正在考虑把大语言生成模型和网络科学建立联系来研究其内在的涌现特性。简单来说,大模型的生成可以看作是一张网,输入一个词,生成下一个词,两个词之间就连接成一条边,然后再生成下一个词再连接一条边,每条边都是概率生成,并不绝对,所以不太稳定。而网络一旦有概率,在网络科学中就有可能出现涌现特性。
Q:在当前以大模型为主的研究背景下,理论研究将会面临哪些新问题?就个人而言,你会优先关注哪些方面?
陈卫:刚才说到的涌现行为就很重要,还有大模型的能力边界、性能效率、参数规模。例如,GPT-3 拥有1750亿个参数,模型是否真的是越大,性能效率就越高?这两者之间应该取得一个平衡。不可否认的是,模型越大能力越强,我们也确实可以通过增加更多参数、数据让模型更强,也可以涌现出更多新能力,但是人脑的工作原理却不是这样的。
《思考,快与慢》(Thinking,Fast and Slow)一书中将人类思考模式分为快思考和慢思考两个系统,即系统1和系统2。系统1是常用的、依赖直觉的、无意识思考系统,系统2则是需要主动控制的、有意识进行的思考系统。现在的大模型更像是系统1,凭直觉生成下一个字符,这也是它强大的地方,能够出口成章,但却也是它的弱势所在,它只能生成一次,没有回溯能力,缺乏更系统的有控制的推理和分析能力,这就是模型的限制。
因此,从理论上讲,很重要的一个问题就是:是否需要单独引入新的系统2的结构来与现有类似系统1的大模型结构合作以提高人工智能的能力,还是说只需要进一步提高模型的规模和训练数据就能提升大模型的性能?我认为,人工智能模型只基于语言模型和单向预测是不够的,新一代模型需要系统2的分析推理能力作为其核心组成部分。
Q:成立至今,微软亚洲研究院理论中心主要开展了哪些方向的研究?
陈卫:微软亚洲研究院理论中心会根据最新的人工智能发展趋势来动态调整研究策略。我们并不会限制研究员的研究方向,只要对理论研究感兴趣,研究员们可以从各种方向进行探索。
目前,理论中心主要的研究包括:数据驱动优化理论——如今的大模型都是由数据驱动的,然而数据是时刻变化的,所以需要将传统优化理论与数据结合,从数据角度做优化;深度学习理论——提升人工智能的可解释性、鲁棒性;还有可信计算,以及隐私保护等。其实很早之前在计算机领域并没有针对隐私保护的理论指导,直到2007年,微软研究院提出了差分隐私理论概念,随后该概念才被推广到了数据库、云计算等隐私保护场景。这是理论研究对计算机科学研究具有指导意义的一个很好的例证。
理论中心的研究主要集中在新的技术方向上,当然这些研究方向也会根植于传统的理论基础。大模型出现后,我们需要更新的理论,这些都还在摸索的阶段。科学研究初期通常都是应用研究发展较快,理论支持相对滞后,而当技术发展到一定时期就会出现很多问题,比如深度学习的可解释性、运行机制就需要理论指导,就像经典的算法理论一直在指导计算机科学的发展一样。如果我们完全不清楚 AI 大模型的运行机制和它超强能力的边界,就将其应用到生产生活的各个领域,必然会种下隐患。因此,我始终认为理论是计算机科学及相关科学非常重要的基础, 在当今 AI 大模型似乎要一统天下时,更需要理论的研究和支持。
Q:微软研究院有没有针对大模型的新的理论研究方向和成果?
陈卫:大模型确实将人工智能推向了新阶段,改变了原来的研究方法,也让大家站在了统一的起跑线上。我们微软研究院总部的同事 Sebastien Bubeck 和他的团队近期提出了 Physics of AGI 的概念,即通用人工智能物理学。因为现在的大语言模型更像一个黑盒子,对它的研究更像是对一个物理系统、物理现象的研究,就像物理学里的实验物理和理论物理研究一样,通过实验来总结规律。这就像历史上研究天体运行的规律一样,先是开普勒用观测数据找出天体运行的若干经验定律,后来才是牛顿在理论上的突破,提出万有引力定律,再加上他发展的微积分工具,完美地解释了开普勒的经验定律。
Bubeck 团队对大模型进行了实证研究,通过抽象出代数系统来验证大模型核心架构 Transformer 的能力,并给出了一定的理论指导(相关论文:Unveiling Transformers with LEGO: a synthetic reasoning task, https://arxiv.org/abs/2206.04301)。我们计划与他们合作,通过抽象出网络图模型来评估 Transformer 的边界,并结合实证研究,希望能够构建出基于网络的大模型理论模型。
Q:想要从事理论研究,需要具备哪些特质?要如何培养理论研究人才?
陈卫:概括地讲,理论研究人才除了要具备较强的基于数学的分析和推理能力,也要有较高的综合能力,以及交叉学科的背景。从事理论研究需要有开阔的思路、博采众长,不能只局限于数学、分析,或计算机科学中的某一个方面。同时,还要有主动性,主动思考发现新问题,尤其是当下人工智能、大模型的研究是没有固定模式的,不能遵从已有的范式,更需要创新精神。
目前,许多学生更多具有的是竞赛式思维,只要有明确的问题,他们总会找到解决方法。但在研究领域,没有人会告诉你问题是什么,比如涌现行为并不具体,而是需要科研人员自己去明确它是否可以转化成数学问题。然而,如何培养这类人才也是值得思考的问题,尤其是人工智能发展到如今这个程度,如何一方面利用人工智能作为辅助,另一方面充分培养发挥人的创造性, 使人工智能和人相互促进,培养出新一代的学生和科研人员,也是一个重要的研究课题。