作者:李东胜
“人脑是世界上最复杂的物体之一,虽然我们对于大脑的研究已经持续了上千年,但人脑仍然有许多未解之谜。我们希望通过跨领域研究,用人工智能技术来帮助神经科学家更好地理解大脑。这种理解不仅有助于探索脑部疾病的机理,促进脑健康,而且通过从大脑汲取的灵感,有望启发我们设计出更聪明的人工智能。”
李东胜,微软亚洲研究院首席研究员
比尔·盖茨曾坦言,他最害怕的事情之一就是他的大脑停止工作,这也说出了很多人的心声。大脑是人类生命的核心,智慧之源,我们的肢体运动、思想、情感、记忆、创造力等都依赖于大脑的神奇活动。
然而,人类脑健康的现状并不乐观。根据《柳叶刀》杂志2016年发布的全球疾病负担研究(Global Burden of Disease Study,GBD)显示,1997年至2016年,每年有900万人死于脑部疾病。医学界也有一句常言:只要活得够久,大脑总会出现问题。特别是随着人口老龄化的加剧,脑部疾病的发病率也在持续上升。毋庸置疑,理解人脑和改善人脑健康变得日益重要。
那由人类智慧孕育的人工智能是否能为人脑健康做些什么?答案是肯定的。例如,由于新生儿大脑发育不成熟,脑电波数据存在个体差异和大量噪声,导致基于脑电波的新生儿癫痫检测成为医学界的世界级难题。针对这个问题,我们与上海交通大学合作,运用人工智能技术显著提高了检测的准确性,与目前最先进的方法相比,AUPRC(精确率-召回率曲线下的面积)提升超过30%,证明了人工智能与脑科学跨领域研究的必要性和可行性。
在此前一系列成功实践的基础上,我和同事们开始拓展并深化人工智能与脑科学的跨学科交叉研究,借助人工智能技术来帮助科学家和医学专家更好地理解大脑,提升脑健康水平,以及更有效地保护大脑,同时,从理解大脑的结构和活动中获得灵感,启发我们设计更好的人工智能。
人工智能加速理解人脑,提升人脑健康
人脑是世界上最复杂、最神秘的结构之一。人类对人脑的研究可以追溯到四千多年前,古埃及时期人们就已经开始解剖人脑、了解人脑构造了。但直到今天,人脑仍然有许多未解之谜。最近几百年,人类开始从现代科学的角度理解人脑,并探索出了一些关键的研究方向和有效的工具,如脑电信号、基因、血液循环等。因此,我们也将人工智能与这三方面的研究结合起来,帮助人类理解大脑,进而对大脑采取更有效的保护措施。
帮助医生更好地理解脑电信号
人类脑电波(EEG)于1924年首次被记录,之后人们逐渐认识到大脑信号的变化与大脑活动密切相关,通过分析脑电信号变化,可以诊断出相关的脑部病症。然而,脑电图的解读非常困难,因为脑电信号经过大脑组织、头皮、头骨等层层反射,信号之间相互干扰,会产生很大的信号噪声。即使专业医疗技师也需要多年学习才能掌握,对几分钟的脑电图进行解读就需要至少一小时的时间,耗时耗力。而且专业医疗技师非常稀缺。
现有的利用人工智能来解读脑电图的方法,通常是针对单一问题的,即一个模型只能解决一个问题。然而,医生在判断病变的产生原因时需要对脑电信号进行综合分析,因此这种“一对一”的专属模型在实际应用中存在很大的局限性。
近年来,大语言模型正展现出越来越强大的生成和推理能力,但在医学领域中直接应用大模型还存在一些壁垒。大语言模型的输入长度有所限制,作为高频数据的脑电信号,即使是10分钟的采样数据也远远超过了大语言模型能够处理的序列长度。为了解决这一问题,我和同事们训练了首个跨数据集的脑电基础模型,可以对任何脑电数据进行分析,实现了“一对多”的脑电理解。
基于这个基础模型,我们还开发了 AI Neurologist 系统,可辅助临床和科研场景下的脑电信号分析工作。AI Neurologist 系统不仅提升了医护人员和神经科学家的工作效率,同时还将医生的判断准确率由原来的75%提高至90%。目前,我们已经在 GitHub 上开源了脑电信号基础模型,也期望有更多关注医疗领域的研究人员,与我们一同探索运用人工智能保护大脑健康的更多可能性。
推动超声定位显微镜技术走向临床
大脑活动与血液循环之间存在紧密的耦合性,尤其是在脑部活动增加时,大脑对能量的需求也更大,这时就需要血液输送更多的氧气和营养。由于存在这种“神经-血管耦合”效应,精准地了解脑部的血液循环有助于我们更好地理解脑部神经活动。
传统的血液循环检测主要依赖于 CT、MRI(磁共振成像)等技术,但这些技术价格昂贵且分辨率较低,只能观测到尺度在数百微米级的毛细血管。现在还有一种前沿的超声定位显微镜技术可以把分辨率从毫米级提升至十微米级,但它对帧率的要求非常高,每秒需要采集1000个图像并形成视频。而在实际临床应用中,视频帧率通常只有100帧或者更低。此外,超声定位显微镜技术对抖动异常敏感,心脏跳动或呼吸等微小的运动都会对检测结果产生影响,这也使得超声定位显微镜技术难以走向临床应用。
事实上,在血液循环检测方面人工智能模型也很难有的放矢,因为传统的机器学习训练和推理是基于预测值与正确值之间的不断匹配和试错。也就是说,我们需要知道正确答案,才能不断训练模型,使输出结果逐渐趋近于正确答案。然而,人脑血液流向的复杂性使其无法被预知,它因人而异、因时而异,导致机器学习难以确定学习目标。
针对这些问题,我们将人工智能与超声定位显微镜技术相结合,设计了一系列创新的方法。目前,这一解决方案已经能够在真实医疗场景中实现对毛细血管的精确追踪,有望推动超声定位显微镜技术从实验室走向临床应用,帮助医生更好地理解大脑血液循环。而且,相较于CT检测,超声检测的成本更低,除了能以更高的精度检测脑部血液循环情况外,由于对人体没有伤害,它还能被用于如孕妇等需要避免检测辐射的群体。
仅需一块 GPU 即可训练基因表达预测模型
在更深层次上,人脑的演化和各种脑部疾病的发生很大程度是受到基因的调控。基因是理解脑部异常相关机理的基础因素。然而,由于基因序列非常庞大,达到了数十亿的数量级,所以,目前最有效的基因表达预测模型之一 Enformer 对计算资源要求极高,需要64块专用 TPU 才能支持其训练和运行。这对一般的生物或医学实验室来说显然是无法承担的,也难以将其从实验室推广至真实应用场景。
对此,我们提出了一种全新的基因表达预测模型,其训练过程仅需要一块 GPU 即可完成。更重要的是,这个模型的准确性和预测范围都显著优于 Enformer,为理解复杂脑部疾病机理提供了重要的启发。利用这个预训练模型,我们可以分析与脑部疾病相关的异常基因表达,例如将帕金森病人与健康人的基因表达进行对比,从而找出异常基因或突变基因,帮助医生明确下一步研究方向。
从脑启发到创造新的人工智能
人工智能的终极目标是实现类脑智能,即让机器模仿人类大脑进行信息处理,实现更高的认知行为和智能水平。历史上,多层感知机(MLP)的概念就是受到了大脑神经元学说的启发,而很多深度学习技术也都是受脑启发而设计的,例如强化学习源自大脑多巴胺的奖励机制(Reward and dopamine),卷积神经网络的设计灵感来自于大脑视觉皮层结构(Visual cortex structure),注意力机制则借鉴了大脑认知注意力的研究。
人工智能的设计和优化目标虽然与大脑并不完全相同,也无需完全复制大脑的功能,但大脑有很多值得借鉴的机制可以用来提升人工智能技术。这种融合脑科学和人工智能的研究路径为未来人工智能的发展提供了有益的方向。我认为,其中有四个方面显示出了较大的潜力,包括人脑的节能性、表达能力、泛化能力,以及擅于利用工具的特性。
人工智能应该如人脑一样向节能方向演化
尽管当前人工智能大模型的能力已经超出了人们的预期,但是训练和运行的功耗却非常高,而且随着模型规模扩大,能耗也呈正比增长。如果这种趋势不断持续下去,多年后我们将无法为大模型运行提供足够的电力。与此不同,人脑是朝着更节能的方向进化的。据估计,人脑的功耗仅为10-20瓦,而具有相同算力的超级计算机的功耗却是21兆瓦,比人脑高出一百万倍。
因此,模拟大脑的计算和通信方式,被认为是解决当前人工智能行业能耗问题的一条可行途径。我和团队已经在一些时序分析的任务上进行了初步的探索,通过模仿大脑中稀疏的编码和计算方式,我们可以在不损失模型精度的同时把特征处理的能耗降低到原来的五分之一,这一方向的研究创新将有助于推动人工智能技术向更可持续的发展方向迈进。
统一大脑神经元信号传输机制,提升人工智能表达力
神经科学研究发现,人脑神经元通过各种连接模式相互作用来处理信息,其中有四种类型最为常见,包括前馈激励和抑制、反馈抑制、侧抑制和相互抑制。很多现有的人工智能神经网络仅包含其中的一两种类型,例如多层感知器只包含前馈激励,并不能把其他模式都集成到一种神经网络中。
在这一研究方向上,我们提出了一种创新的回路神经网络 CircuitNet,可以统一实现大脑中的前向、后向、抑制、促进等各种信号传输机制。通过在函数逼近、时序分析、图像识别、强化学习这四种任务上与多层感知器、CNN、RNN、Transformer 神经网络的对比,CircuitNet 能够以更少的参数实现更好的效果。CircuitNet 回路神经网络更趋同于脑部神经元处理信息的模式,为机器学习提供了一种新的基础架构。
模拟人类执行行为,提升人工智能泛化能力
人类在学习某项知识时,并不需要阅读世界上所有的相关书籍,而是具有一彻万融的能力。但如今最先进的大模型为了实现当前的高推理水平,在训练时已经学习了世界上几乎所有公开的数据。这种“举一隅不以三隅反”的学习方式不利于培养模型的泛化能力,也阻碍了模型向具身人工智能(Embodied AI)方向的发展。
通过模拟人类执行行为的特点,我们首次将习惯行为(habitual behavior)和目标导向行为(goal-directed behavior)统一建模,从而让智能体可以在不需要训练的情况下就实现两类行为的灵活切换。这种方法将会让人工智能具有更高的灵活性和更强的泛化能力,为实现具身人工智能提供了新的方向。
大语言模型还需具备使用其他模型和工具的能力
此外,人脑在执行任务时不仅涉及思考,还包括身体的控制以及利用工具。我们希望大语言模型也可以像大脑一样能够使用工具,即通过大语言模型来调度现有的人工智能模型,完成更复杂的任务。在这一方向上我们也进行了初步的尝试,提出了首个利用大语言模型连接开源社区中各种人工智能模型解决复杂任务的框架 JARVIS。
除了上述研究方向,还有一条技术路线是通过神经拟态芯片来模拟人脑的神经元结构。在现在的计算机架构——冯·诺依曼结构中,计算与存储是分离的,而这与人脑计算和存储一体化的架构有明显差异。神经拟态芯片则可以通过采用与生物更类似的处理方式,实现一种更接近人脑工作方式的计算,所以也被一些人看作是实现通用人工智能的可行路径。
人工智能与脑科学研究需要跨领域、系统性的研究能力
人工智能已经展现出重塑众多行业的潜力,但每个行业都面临独特的挑战,解决这些挑战的关键在于跨学科的合作研究。脑科学是一个典型的跨学科研究领域,涉及到生理学、解剖学、生物学、物理学、化学、计算机及数学等多个学科。因此,在人工智能与脑科学的研究中,跨领域和系统性的研发能力是实现创新突破的必要条件。
为了探索人工智能与脑科学这一跨领域研究的更多可能性,微软亚洲研究院与上海交通大学所成立的联合实验室于2021年开始了相关研究,并与该领域的医生展开了三方合作。在此过程中,我们摸索出了一套跨领域的合作模式——“自学-组团学习-专家交流”,来推动跨领域研究的创新。以新生儿癫痫检测合作为例,我的同事们首先自学了医学专业书籍,深入了解脑电图的相关知识;然后与具有神经科学和人工智能交叉学科背景的同事一起参加在线公开课,共同研讨学习,初步了解大脑的运行机制;在此基础之上,我们再与医疗领域的专家学者和医生深入沟通,将脑部研究的问题转化为人工智能问题。这一方法不仅可以更准确地找到脑科学研究中的痛点,有针对性地提出解决方案,也有助于计算机科研人员提出改进人工智能的新思路。
人工智能与脑科学之间的交叉研究有着悠久的历史,这一结合不仅推动了科技的创新,也深化了人类自身对大脑奥秘的理解。未来,我和同事们将进一步加强跨学科融合,推动脑科学研究与医学的进步,同时也为人工智能技术的发展开辟新的道路。我们也期待有更多的伙伴与我们一起合作,确保这些技术的进步可以惠及全人类。
本文作者
李东胜博士,微软亚洲研究院(上海)首席研究员,主要研究方向为机器学习和脑科学-AI交互计算。近年来,李东胜在相关领域的知名期刊和会议发表论文100余篇,出版专著1部,申请国际专利10余项。
李东胜2007年本科毕业于中国科学技术大学,2012年博士毕业于复旦大学。2019年,他被复旦大学计算机学院聘为客座教授、行业博士导师。目前他还担任中国计算机学会协同计算专业委员会执委和上海计算机学会计算机视觉专业委员会副主任。
相关链接
CircuitNet:A Generic Neural Network to Realize Universal Circuit Motif Modeling
https://proceedings.mlr.press/v202/wang23k/wang23k.pdf
脑电预训练模型论文:Learning Topology-Agnostic EEG Representations with Geometry-Aware Modeling
https://openreview.net/attachment?id=hiOUySN0ub&name=pdf
新生儿癫痫检测论文:Protecting the Future: Neonatal Seizure Detection with Spatial-Temporal Modeling
https://arxiv.org/abs/2307.05382
解码大脑信号重建视觉感知图像论文:Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals
https://arxiv.org/abs/2308.02510
模拟人类行为论文:Habits and goals in synergy: a variational Bayesian framework for behavior
https://arxiv.org/abs/2304.05008
JAVIS项目链接:
https://github.com/microsoft/JARVIS
PhysioPro项目链接:
https://github.com/microsoft/PhysioPro