全球健康药物研发中心 (GHDDI) 和 微软研究院科学智能中心(Microsoft Research AI for Science)团队通过开发 TamGen 在研究结核病方面取得了重要突破。TamGen 是一款基于 Transformer 模型的开源化学语言模型,用于开发特定靶点的药物化合物。联合团队通过密切合作成功确定了几种有前景的结核病蛋白酶抑制剂,其中最有效的化合物表现出显著的生物活性。研究表明,TamGen 还可以通过设计靶标感知片段来优化现有分子,从而发现基于已知分子核心结构的新型化合物。该项研究已在《自然-通讯》(Nature Communications)杂志上发表。
TamGen
论文链接:https://www.nature.com/articles/s41467-024-53632-4 (opens in new tab)
开源链接:https://github.com/microsoft/TamGen (opens in new tab)
生成式AI助力突破药物发现的局限性
生成式 AI 通过让计算机自主学习并生成创新内容,为科学探索开辟了新的道路。TamGen 利用生成式 AI 创建新的分子化合物,为药物发现提供了一种全新的方法。与传统依赖实证、系统筛选已知化合物的方法不同,生成式 AI 能够更高效地探索更广泛的新型化合物(图1),克服了传统方法在庞大化学库筛选过程中所面临的耗时长、复杂度高且成本昂贵的问题。
TamGen工作流程
利用生成式 AI,TamGen 设计了特定靶点的化学化合物。基于大语言模型(LLMs)的成功,研究员们采用了类似的技术来生成化合物。首先,将分子转换为简化分子输入线性表达系统(Simplified Molecular Input Line-entry System, SMILES),这是一种将分子结构表示为符号序列的标记法,类似于文本。
为了生成特定靶点的化合物,研究员们开发了一个编码器来处理有关蛋白质的信息,包括 3D 结构信息。另外,一个结合了医学专家见解的上下文编码器,整合了有关蛋白质靶标以及经验证有效或被确定为有前景的化合物信息。通过集成专业信息和计算分析,该编码器可指导化合物生成器生成更有可能与蛋白质结合的新分子。工作流程如图2所示。
通过计算性能评估TamGen
为了评估 TamGen 的性能,研究员们将其与其他五种常见的方法进行了比较,这些方法均用于创建与特定蛋白质结合的 3D 结构分子。利用 CrossDocked 基准数据集,研究员们评估了这些方法,该数据集用于评估在 AI 研究中以靶蛋白为条件的分子生成质量。
评估指标包括:
- Docking score:评估分子与目标蛋白的结合程度。
- 药物相似性定量估计 (Quantitative Estimate of Drug-likeness, QED):评估分子的候选药物质量。
- 合成可及性分数 (Synthesis Accessibility Score, SAS):测量在实验室中合成特定化合物的难易程度。
- 类药五原则(Lipinski’s rule of five, Ro5):判定化合物开发成口服药物的可能性。
- LogP:测试化合物在水和脂肪之间分配的能力。
- 多样性:测量化合物集合中不同分子结构和性质的范围。
图3展示了 TamGen 整体性能的表现。虽然其他方法也可以产生具有强结合能力的化合物,但它们通常包括多个互连的环状结构。研究表明,这些结构的增加会降低合成可及性(SAS)并增加细胞毒性,使这些化合物更难开发。研究员们认为,预训练策略有助于提高 TamGen 生成的化合物的整体有效性。
TamGen实验验证
为了确保研究的实际应用,研究员们还在湿实验环境中进行了验证。在湿实验中,研究员们选择了结核分枝杆菌中的 ClpP 蛋白酶作为靶标,该蛋白酶对细菌在压力条件下的存活起着重要作用。通过设计、优化和测试三个阶段,TamGen 可有效识别用于结核病药物发现的分子化合物(如图4所示)。
设计阶段:首先使用 TamGen 分析蛋白酶的结合口袋,其他分子可以由此附着在蛋白酶上并影响其功能。TamGen 生成了大约2,600种可以放入这个口袋的潜在化合物,根据它们与蛋白酶的结合程度及其预测的生物学效应,研究员们对这些化合物进行了评估,并将范围缩小到了4个目标候选化合物。
优化阶段:接下来,研究员们将设计阶段鉴定的4种化合物以及之前在实验室实验中验证的3个分子片段输入到 TamGen 中,这一过程总共生成了8,600种新化合物。使用相同的标准,研究员们再次筛选了这些化合物,最终将选择范围缩小到了296种化合物。
测试阶段:由于合成所有296种化合物并不现实,所以研究员们从商业化学库中筛选了类似的化合物,并测试了它们对结核病的初始活性。其中5种化合物显示出了有前景的结果。随后,研究员们合成了其中一种原始化合物以及另一种化合物的两个变体。此外,研究员们还将生成的化合物分为了若干簇,并根据对接评分从每簇中选出前10%,经过人工审核,又合成了8种化合物。
微软研究院的团队使用 TamGen 生成了候选化合物之后,GHDDI 团队对此进行了结合分析、结构-活性关系研究以及实验室实验,以验证这些化合物对 ClpP 蛋白酶的抑制效果,并确定了其 IC50 值——这一指标衡量了抑制50%酶活性所需的化合物浓度,IC50 值越低,效能越强。在测试的16种化合物中,有14种表现出很强的抑制活性,IC50 值均低于40 μM,显示出良好的潜力。其中最有效的化合物 IC50 值为1.88 μM。
从分子到片段生成
除了生成全新的分子,TamGen 还能够通过设计分子化合物的较小部分来优化现有化合物。在片段生成过程中,若给定一个蛋白质靶标和一个需保留的特定分子结构,TamGen 就可以围绕该结构设计全新的化合物。TamGen 并非从现有的化合物库中选择片段,而是设计了可识别靶标的片段,这意味着它们包含与靶蛋白相关的信息。这种方法超越了传统依赖于预先存在的数据库的方式,打破了传统方式对新颖性和有效性的限制。
此外,研究员们还调整了 TamGen 化合物生成器的输入,设计了目标感知片段。通过重写 SMILES 字符串,来确定保留的片段和进一步增长的特定连接点,从而确保其在所需的增长站点终止。然后,再将修改后的 SMILES 字符串输入TamGen 的化合物生成器进行扩展。
为了评估这种方法,微软研究院与 GHDDI 合作,针对结核病 的 ClpP 蛋白酶进行了湿实验,发现与原始化合物相比,TamGen 生成的分子化合物的结合亲和力提高了十倍以上。而且,TamGen 设计的部分化合物还表现出慢结合(slow binding),表明它们具有持久作用的潜力,并可以提高对目标靶蛋白的选择性。
人工智能在药物发现中的潜能
通过将先进的分子建模系统与科研人员和 AI 系统的协作相结合,TamGen 充分展示了生成式 AI 在现实药物设计中的巨大潜力。在传统方法中需要数年才能完成的工作,现在可在很短的时间内实现。这项研究突显了人工智能在药物发现中日益重要的作用,并有望为结核病等持续性传染病提供有效的解决方案。
展望未来,微软研究院计划将更先进的技术集成到 TamGen 中,包括用于生成 3D 结构的扩散模型、应用物理约束的强化学习,以及捕获蛋白质形态变化的分子动力学模拟。这些增强功能将有助于改善生成的分子化合物与靶蛋白的结合程度,提高合成可行性并增强其他关键药物特性。