编者按:近年来,人工智能的深入发展助力生物医学研究取得了重大突破。“AI+生物医药”成为了学术界和产业界都非常关注的热门赛道。在后疫情时代, “AI+生物医药”能否保持强劲的发展态势,又将面临哪些机遇与挑战?
在世界人工智能大会2022的上海生物计算论坛上,微软杰出首席科学家、微软研究院科学智能中心亚洲区负责人、微软亚洲研究院副院长刘铁岩与上海市生物医药促进中心副主任唐军,华深智药创始人兼CEO彭健展开了一场精彩的圆桌论坛。三位拥有交叉背景及行业视野的对话嘉宾分别从研究现状、人才吸引、产业落地等多个角度对“AI+生物医药”进行了探讨,并展望了该领域未来的发展蓝图,为观众带来了一场赋有启发的讨论。
主持人:药物设计领域已经站在了新一轮爆发的起点,各种技术涌现,我们首先想请教一下几位嘉宾,对于接下来领域内大的技术发展有什么预测,是会呈现出一家独大还是百花齐放的态势?
彭健:我们可以看到包括生物计算在内的许多新技术在最近三到五年已经涌现出来了,我个人判断,未来一定是百花齐放的形式。
生物医药行业和传统互联网以及其他的产业还是有些区别的。生物医药行业是非常长的链条,制药发展的各个环节,从早期靶点到后面的发现,甚至到临床实验,每一个环节都是在整个产业链中非常有价值的部分。不管是从AI还是计算,甚至是从实验或其他的角度来讲,都必定在这个产业链的每一个环节中有非常多不同的贡献。因此,我认为我们的行业在未来相当长的一段时间内,会呈现出百花齐放的情况。
刘铁岩:我非常同意彭健的说法。其实,药物设计相关的研究本身就是一个非常广谱且丰富的事情。从研究对象来讲,我们有很丰富的药物设计,比如小分子药物、抗体药、基因疗法、PROTAC等,它们的原理与应用场景都有很大的差异;从制药的流程来看,从前端的靶点发现、先导化合物的筛选优化,到后期ADMET的预测、甚至临床效果的预测,各个环节都有各自独特的技术挑战。面对这样非常丰富的研究场景,本来就应该是百花齐放的状态。
但如果我们审视一下今天的AI制药领域,就会发现事实上里面还存在着一些问题。例如有一些扎堆的现象,卷到靶标蛋白的结构预测或者结合力预测(binding affinity prediction)这些问题上。之所以会出现扎堆的现象,其中一部分原因是这些领域已经有比较成熟的技术,比较容易获取那些唾手可得的成果。大家没有以一种长期主义的心态来思考如何构建自己的技术壁垒。刚才彭健提到我们微软研究院今年成立了科学智能中心,我们这个中心的目的是以更加长远、更加基础的视角来看待人工智能在整个科学领域的应用,其中就包括AI制药,希望能够借由我们的努力引导大家以更长期的心态来看待这个领域的研究工作。
方向上应该百花齐放,不过下沉到技术层面,我们还是可以看到一些趋势的。首先,AlphaFold 2 的成功让人们体会到了深度学习、大数据、大模型、大计算所带来的不同,而这种不同正是近年来人工智能领域发展的某种体现。比如,通过预训练大规模的基础模型来实现AI学习的规模效应,为丰富的下游任务提供有力的支撑,例如像微软投资的GPT-3等都是非常优秀的基础模型。我们相信这种趋势未来也会在生物医药领域进一步延展:比如,如何构建更适合小分子通用表示的基础模型,包括它的骨干结构设计以及预训练的方法;如何有效地解决模型的泛化性和外推性,从而应对生物医药领域里有效样本不足和目标问题非常复杂这样的一对矛盾。
其次,强化学习技术在药物设计方面应该会有很大的发挥空间,因为药物设计本质上就是一个搜索问题,各种属性预测的深度学习模型扮演的就是价值函数的角色,而在这些价值函数的指导下,如何在巨大的分子空间中寻找到一个好的原子组合及其三维结构,是需要一些巧妙的策略做支撑的,蛮力搜索是不可取的。
目前在深度学习和强化学习这两个方面,人们还在大量使用着为传统领域发明的人工智能工具,针对制药领域进行的特异化设计还非常不足,所以我个人认为在生物医药领域人工智能要走得路还非常远。而这就需要我们计算机科学家和生物专家、化学制药的专家密切合作。做一个大胆的预测,我们有可能需要5-10年的时间才能真正形成比较稳定的技术路线,也可能再需要5-10年,我们才能够对制药行业产生本质的颠覆性的影响。
唐军:人工智能技术可以运用到整个药物从研发、中试到生产的所有关键技术环节,如人的免疫原性实验,在研发蛋白药物、抗体药物等过程中,作为临床前毒理试验的重要内容,必须完成。传统的药物开发过程是从分子水平到细胞水平,然后到动物实验,再到人体实验。我们不能等到了人体实验才考虑免疫原性,以前的做法是把人的免疫系统通过转基因技术放在小老鼠的模型上筛选药物的免疫原性,但准确率和效率较低,尤其在大量候选药物筛选的时候,工作量巨大,耗费的金钱成本也较多。
自从有了AI技术模拟抗原免疫原性筛选系统以后,工作量减少了很多,这样我们的一些判断就可以提前到侯选药物的筛选阶段,这个工作非常有意义,对医药行业也有非常大的支持。因为一个创新药物要开发出来往往需要10年的时间,还需要数亿美元的经费。假如能在最前面的环节解决问题,那么花费和时间都会有所节省。这给生物医药行业带来了颠覆性的改变。
另外,关于蛋白质结构的预测,我觉得也是非常有意义的。我们都知道氨基酸序列是肽或蛋白的一级结构,很快就能测出来的,但是它的二级/三级结构、空间结构、折叠却很难检测,或者目前的检测精度不够。假如利用了AI技术,那么在蛋白药物的设计和筛选方面会有很大的帮助。
下面我从成果转化和产业化的角度来谈一下,AI和医药结合的产品是怎么从技术发展到新产品上市的,这期间大概会经历哪些比较难跨越的阶段。
首先,在实验室里发现一个技术,或者实验室发明了一个新的检测试剂或药物,要转化到工业化生产条件下进行生产制造,这就是一个难点。因为这里面要考虑质量的控制、成本的控制,以及中式放大产业技术条件的筛选,但是实验室里的科学家对这些是没有概念的,那么就需要工业界的专家进行指导。其次,新药从研发到上市最主要的一环就是需要大量的经费和时间投入,那么长久的、持续的股权融资就非常重要。第三,在新产品注册规划方面也会比较困难。因为药物和医疗器械的监管非常严格,细分领域的技术指导原则都非常细致,所以我们需要有药物注册专家,或者器械注册专家帮助提前规划。尤其是准备开发哪些种类新药、诊断试剂、或者做疫苗,所以一开始就要规划好。再者,最难的是人体实验,人体实验还需要临床资源、GCP机构和医生大量的配合。临床实验完成以后,上市销售也比较困难,创新药要努力开拓市场,仿制药要想办法抢占原研药的市场,所以还需要销售专家、医保系统、定价系统和政府相关部门协调、合作,完成上市。
刘铁岩:唐主任刚才讲得非常好,向我们阐述了从技术研发到成果落地一系列的环节,其中也提到了鸿沟的问题,对此,我想稍微做点补充,尤其是从AI的角度来说一说我看到的鸿沟是什么样子的。
现在,很多从事AI制药的人都在走一条“捷径”,比如锚定已有的基准数据集或者一些公开的比赛(常见的如药物-靶标相互作用、药物-药物相互作用等),然后在这些任务上进行模型调优,以期获得SOTA结果。因为一旦有了这样的结果就有机会发表论文、进行宣传,甚至获得资本的关注、实现研究的产业化。
但是这样的技术研发路径是正确的吗?是否存在问题呢?
首先,我们注意到这些基准数据集很难反映药物设计的全貌和丰富的场景,它们只覆盖了其中的部分环节。所以如何构建更加多样化、更加可信的数据集,其实非常重要。像蛋白质结构预测领域做得就很好,蛋白质结构一旦解析出来以后,大家都愿意放到PDB这样的公开数据库里。但是在医药领域,药物研发过程中的数据多是药厂私有的,是不拿出来公开的,这不利于学术界从事相关的研究工作。
其次,如果AI从业者针对有限已知的数据集,面对单一的评价指标只是不断调优,而不是思考模型在目标应用上是否存在着本质的设计缺陷,不去解决深层次的问题,那么我们很难保证学到的AI模型可以在新药研发领域有很好的表现。我们绝对不能天真地认为,只要手里拿着AI的大锤到处敲一敲就可以颠覆制药行业。想要实现AI+医药就需要跨领域的专家合作,也需要AI从业者不断提高自己的修养,把相关领域知识消化吸收。
我另外还有一个观点想跟大家分享:如果我们站在AI的角度来看待药物发现,其实药物发现并不是典型的人工智能问题。为什么这么讲呢?药物发现的目标是所找到的最好的药物要足够有效,而不是要求整个药物筛选流程里所有的候选药物在期望意义上都有效。这一点和我们经典的机器学习是非常不同的。另外,制药问题对AI模型的分辨率要求非常高,要细致到能够捕捉到关键蛋白的突变信息,而不是像多数已有的AI模型那样有很强的光滑性假设。
最后,刚才唐主任也提到了不管我们前期做什么样的预研,最后都需要严苛的临床实验过程。目前AI制药的研究主要集中在临床之前(preclinical),尚未打通整个药物研发的闭环。当然,一部分原因也是由于临床阶段数据更难获得,问题更加复杂,更不可控,对已有的人工智能技术会造成非常大的挑战。因此很多用计算方法或者人工智能找到的候选药物,都折戟在了临床的阶段。
彭健:非常感谢刘铁岩老师和唐主任的分享!唐主任主要从产业的角度讲述了技术到底是怎么落地的,这里面有许多的困难需要克服,要促成一个成功的技术转化甚至落地,中间不仅仅需要AI和技术层面的提升,也包括政府和产业的联动,才能使真正的技术从早期的研发到最终的成果落地持续贯穿。刚才刘铁岩老师也给了我们很好的建议,特别是面向AI+医药领域的研究者和创业者,怎么能够更好地利用AI去解决一些真正的现实问题。
我原来也是在学术界,去年回国创立了华深智药公司,我可以从创业者的身份跟大家分享一下我这一年来的感受。像唐主任说的,我们真正要去做一家公司,想要落地AI技术,这不仅仅是学术界要做的事情。前面谈到的免疫原性的例子,不管是做核酸药,还是蛋白药,它的流程都非常长,当我们把早期的工作做了以后,后面还有很多关于生产等各方面的评估。
2012年以前基本上是以单抗为主,当时做抗体药物的时候,大家其实不考虑这些因素,因为那时的技术还不够发达,大家通常想的是只要能够找到结合的就可以了,后面有什么问题后面再去解决。如果大家去看2013年以后上市的药物就会发现,它们和过去的抗体药物有很大的不同——大家会把后面的生产、验证、临床逐渐早期化。这样,很早的时候我们就能够把分子找到,从而满足一些我们想要的性质,制药成功率就会大大提高。这一年我也看了许多的例子,也和很多的专家讨论过,大家现在认为成功率是最为重要的,一旦前面早期的决策做错了,后期的时间成本和资金成本都是不可估量的。当然,提高效率、提高精度是很重要的。但是很多时候我们需要从产业链条的角度思考这个问题,就是能够把重要的信息很早地注入在AI算法里,使得AI算法在设计做预测的时候就能起到重要的作用。
这一年我从产业界学到了很多,比如看问题更综合。在学术界讨论的问题有时候就只考虑成本、精度、计算速度等等,但后来我们逐渐意识到在药物研发的过程中有非常多的参数要同时考虑。而且从做产业的角度而言也是一个很复杂的过程,包括资本的运作、政策的扶持等等。
唐军:像彭教授这样的科学家,如果想来上海创业,目前是一个非常好的时机。上海关于产业高质量发展方面刚刚出台了一些新的政策。其中,对创新药物、创新器械、国外注册的药物器械等每个环节,都有相应的政策支持。此外,上海还提出了“1+5+X”的产业园区新政策。“1”是张江核心区,“5”是临港、奉贤、宝山、金山、闵行几个大的生物医药基地;“X”指的是很多细分领域的园区,像浦江镇的基因谷、张江细胞治疗产业基地等。很多细分的产业园区我们都制定了相应的产业政策,包括土地规划、资金支持、人才服务、子女教育等保障都做了相关的政策和规定。每个园区也都跟资本联合,搞了产业支持资金。在这里我也呼吁一下,如果一些科学家想创业,我想现在是最好的时机,政府也是大力支持的。特别是AI与生物医药的结合,对于生物医药我们专门做了关于数字化转型的细分支持政策。
生物医药和AI实际上都是属于比较前沿和比较尖端的交叉学科,都需要顶尖的人才,最后想请问两位科学家,在交叉学科方面有没有什么经验可以分享。
刘铁岩:就像唐主任说的,AI和生物现在可能是整个学术界、产业界发展最快的领域,它们的结合还会涉及到物理、化学、数学等其他的支撑学科。跨学科的交流和融合从来都不是一件容易的事情,甚至不同学科词汇的差异不亚于不同语言之间的差异。
我想从两方面讨论一下跨界合作,或者是跨领域研发这件事。
首先,我们要构建一支高效且多样化的团队。比如我们在微软研究院组建科学智能团队的时候,非常强调要招三类人:第一是顶级的人工智能科学家、第二是一流的自然科学家、第三是有丰富跨界合作经验的人才作为粘合剂。这里,我想着重强调一下顶级人工智能科学家和顶级自然科学家的重要性:没有一流的自然科学家,我们很难提出真正的一流问题;没有世界顶级的AI科学家,我们就没有能力和魄力去颠覆性地创造新的人工智能算法和工具,只靠拿来主义和魔改是没有办法构筑真正的技术壁垒的。
另外,如果两个不同学科的团队进行跨界合作时,那么双方都必须要有敬畏之心。AI科学家和自然科学家不是生产者与消费者的关系、不是运动员与裁判员的关系,而是队友、合伙人,是一个团队。大家要携手共创,有充分的互信,而不是相互揣测、相互试探、甚至相互鄙视。这一点说起来容易做起来难,大家需要突破一定的固有思维模式的,要有成长型思维。在微软,我们非常重视成长型思维,鼓励不断突破自己的知识局限,乐于学习新知识,勇于踏入新领域,不断刷新自己的知识瓶颈。
未来AI制药一定是跨界融合、蓬勃发展的领域,也希望在这个过程中,大家能够不断地做探索,通过求同存异让不同背景的人能够在一起共同把这个领域发展好。
彭健:我最后从人才培养的角度来谈一谈。刚才刘铁岩老师也说了,我们有很好的自然科学家和人工智能的专家,也需要位于交叉点的人才,但同时接受两边训练的人才其实是比较稀缺的。他要能够同时理解AI技术,同时又对自然科学,像药物发现、生物学、化学有着非常深入的了解,这种人才非常少。之前我们各个高校的学科边界设立得过于明显,但很多世界顶级的学校都是鼓励学生选修其他学科的专业。我想,要从本质上解决交叉学科人才的问题,在教育、人才培养方面也需要更多的创新。
主持人:非常感谢三位嘉宾的分享,作为新兴的科研领域,生物计算需要跨学科、跨行业、跨产业部门的沟通与合作。就像刚才三位嘉宾分享的那样,这也代表了未来科技和产业发展的方向。