AI、机器学习在材料科学研究中能发挥哪些作用？

2022年8月5日

分享这个页面

编者按：近年来，越来越多的实践证明，AI 是一项可以用于发现规律的关键技术，除了工程技术领域，AI 也为自然科学提供了新的科学发现工具。科学家们利用 AI 技术、基于大量高通量数据分析，不仅能加速实验进程，甚至还可以从数据中总结和发现尚未被人类知晓的科学规律。微软亚洲研究院很早就看到了这一趋势，并在过去几年中，陆续开展了 AI+生物学、AI+环境科学、AI+物理学等方向的研究。

近日，微软亚洲研究院邀请了中国科学院半导体研究所首席科学家、北京龙讯旷腾公司首席科学顾问汪林望教授，就“高性能大规模原子材料模拟的挑战与机遇”等话题进行了分享，并与微软亚洲研究院副院长、微软研究院科学智能中心亚洲团队负责人、微软杰出首席科学家刘铁岩博士展开了深入对话。汪林望教授在材料科学领域深耕近30年，对大规模电子结构计算、密度泛函理论（DFT）、第一性原理计算的研究有着深厚的经验。此次对话中，汪教授深度解析了当前材料领域研究技术的发展现状、面临的挑战、存在的问题，以及 AI 技术在材料科学中的应用方向和待解决的问题。希望这场与材料科学领域专家的精彩对话，可以为 AI 探索更多自然科学领域带来新的灵感。

刘铁岩：汪教授在材料学领域已深耕近三十年，包括对密度泛函理论 (DFT)、电子结构等问题都有深入的研究。先请您介绍一下当前材料科学领域的发展情况。

汪林望：在材料科学研究领域，理论计算方面多数使用的是量子力学（quantum mechanics），也就是第一性原理计算。如今，第一性原理计算已经渗透到了材料科学的方方面面，它与合成、表征并称为材料研究的三大基石。最近20年，中国在第一性原理计算领域的研究论文数量呈指数级增长。

尤其是，从头算材料模拟（ab initiomaterial simulations）在学术界被广泛使用，因为传统的做法需要大量的经验参数，而从头算不依赖于经验参数，只用电子、质子质量、原子的位置等少量数据作为输入，就可以计算出材料性质。这是一种强大的工具，因为它所依赖的薛定谔方程是非常基础的。可以说，有了这个方程，所有材料科学的问题都可以得到解决。

刘铁岩：第一性原理计算主要被用于基础科学研究，由于算力的提高和算法的更迭，当前产业界也对这个工具产生了浓厚的兴趣，特别是我们注意到诸如锂电池、化工、制药公司纷纷开始加大对这一领域的投入。那么，第一性原理计算与产业结合的前景如何？还有哪些挑战？

汪林望：目前工业界中广泛使用的是CAD (Computer Aided Design，计算机辅助设计) 工业软件，主要依靠牛顿力学，使用连续介质方法，比如有限元方法求解偏微分方程等。这类软件通过一些参数来表征材料的性质，并以这些材料为基础去设计不同的工业器件；它们很大程度上解决了实验成本过高的问题，比如可应用在飞机制造，代替风洞实验等。但这种辅助设计方案并不设计材料本身，仅着眼于宏观层面。

然而，在接下来的二、三十年，在后工业时代，除了关注材料宏观结构的设计，我们将更聚焦于新材料本身的研发设计，例如关注研发耐高温的航空材料、坚硬抗腐蚀的海洋材料、电池正负极材料等。而材料的性质决定于原子排布，这就需要借助 Quantum Computer Aided Design ，形成一套新的方法，我们称之为 Q-CAD。

但要想真正在工业界应用这些工具还有很多问题需要克服。在学术界一个大的材料项目几乎有20%的工作花在计算上，但在工业界这个比例可能少于1%。当前学术界做的是几百个原子量级的计算，但在工业界，比如模拟电池的正负极材料需要的则是百亿原子的量级，其中的时间尺度很大。如何弥补这些差距？未来就需要人工智能的帮助。

在这个过程中我们要考虑几点：首先是复杂性，比如材料研究求解催化过程常常会从几十种情况演变成几百种，需要高通量计算、遗传算法的支持；其次是准确性，密度泛函理论也存在一些局限，比如 d 电子做催化时计算结果不够准确；还有尺寸标度问题，当前我们只能计算几百或几千个原子，但我们更需要对上亿的原子进行计算；另外还有时间标度，一般的分子动力学也就做到皮秒或者纳秒，但是当我们真正要解决一个工艺问题时，则需要秒甚至小时级别的模拟。

目前，我所参与的 Q-CAD 解决方案是通过自主研发的 PWmat 算法与高性能计算 GPU 加速和人工智能机器学习力场三种技术相结合，力图解决工业界计算所需要的大体系、长时间尺度的问题。当下和未来，人工智能等新技术不失为弥补材料科学研究与工业应用差距的一个好方法。

刘铁岩：当前很多科研人员开始聚焦机器学习和第一性原理计算的结合，例如利用各种机器学习模型去拟合 DFT 的势能面，您是怎么看待这个方向的？未来，人工智能可以在哪些方面帮助到材料科学研究？

汪林望：在材料研发上，我认为有两个方向可以应用机器学习技术。一是在数据挖掘上，比如基于数据库，利用机器学习在海量数据中发现分子结构、属性之间的相互关系，并找出映射（mapping），这是传统材料科学研究最关心的问题。当前利用密度泛函理论、材料基因组、高通量计算都会产生海量数据，与以往实验所得的数据相比更规整，非常适合计算机科学和机器学习使用。

二是机器学习可以用来开发经典力场，然后再用经典力场做分子动力学模拟。机器学习开发经典力场的思路是：当使用中小体系计算密度泛函理论时，会产生大量的数据，而在经典力场中只需要知道原子结构、映射出能量和原子受力，就可以利用机器学习不断迭代、反复学习映射，使之变得更好，这就是机器学习力场。从这个角度来看机器学习力场将会改变当前材料科学的研究现状。目前经典力场模拟分子动力学的思路是：从物理学角度出发设定简洁模型，比如给每个共价键一个能量表达式，然后再调整各影响变量的参数。这对于原子种类相对较少的经典力场较为有用，但材料领域涉及的大部分情况下没有力场，或者已有的力场精度很低根本不能用。引入人工智能、机器学习技术，有可能改变这一现状。

a man and a woman standing in a room — *汪林望教授（右）与刘铁岩博士（左）在微软亚洲研究院分享活动现场合影*

刘铁岩：在自然科学领域，AI、机器学习开始发挥作用，从事 AI 的学者也希望将自然科学作为一个重要的应用课题去研究，微软近年来也在持续探索计算机科学与自然科学交叉研究的新范式，例如分子动力学模拟等等。在您看来，值得科技工作者投身研究的重大科学问题有哪些？

汪林望：在机器学习力场中还存在着很多悬而未决的问题。人工智能在材料领域的应用还处于初步探索阶段，我们无法确定它在这个领域能发挥多大的作用。比如，要如何估计一个系统的内在“有效维度”或复杂性，如果维度增加很多，机器学习是否还会有效？现在的神经网络越来越复杂，它的极限在哪里？是否有办法能应用更深的神经网络，而又可以快捷的训练？这些都需要进一步验证。

再如，用于机器学习训练的参数空间（parameter space landscape）随着数据点（data points）是如何变化的？我们优化训练时，其实它是一个空间切分（partition space）问题，那么如果数据量变大，参数空间是怎么改变的？经验表示，应该是数据量越大运行越顺畅，但目前没有定量数据来证明这一点，还需要理论指导。还有，在拟合限制下，或更复杂的网络下，如何平衡网络的更大的表现功能和它的训练可行性？

构建更复杂的网络时，理论上它的能力也会越强，但网络参数空间也会越复杂，训练过程中更容易进入局部最小值（local minimum）。如何在没有过度超参数调整下加速训练？如何跳过局部最小值？如何选择采样点？这些都是值得研究的方向。另外，应该结合基于物理角度出发的模型与基于大数据的模型，而不只是偏于一边。这样的模型也许更有效。

刘铁岩：确实我们需要对 AI 保持客观的态度，AI 肯定不是万能的。如果期望 AI 在材料科学，或者更大范围的自然科学领域产生作用，我们一定要深入理解目标问题。比如汪教授之前提到的，在小体系中学了某种映射，我们也希望这个映射能够应用在大体系中，但小体系到大体系的过渡，并不符合机器学习的独立同分布假设，需要全新的数学工具来分析它的泛化能力。这些问题都需要AI学者与自然科学家一起深入思考，那么对于跨学科合作您有哪些建议？

汪林望：人工智能、机器学习等技术在材料科学领域的应用才刚刚起步，可以说还处于探索期，如何使用这些技术，我们目前还没有明确的方法，更多的还需要参考一些其它的行业案例，从中借鉴经验然后再不断试错。有人说，在所有方面都可以尝试新技术，但其实并非如此，在尝试前，我们要了解我们真正需要什么、不需要什么。材料科技领域中，在一些函数、经典力场的准确率上，在观察更复杂的化学反应、物理反应等问题上，我们可以尝试引入人工智能技术。事实上，任何一项新技术的结合所产生的结果都有正负两面。

不论是在材料科学领域，还是其它领域，借助人工智能技术都是一个大趋势，它转变了传统领域的观念，让我们意识到大数据、机器学习等技术是可以与材料学的高通量计算相结合的。跨领域的结合也得益于计算机的发展，在产生海量数据后，用类似统一的方法建立模型，这是一种新方法，也将带来新的成果。

以前的第一性原理计算可以让我们计算几百个原子，机器学习技术的引入可能让我们达到一个新高度，实现百万级别原子的模拟。虽然经典力场是材料科学的重要一支，但之前的应用很有限。在以后，它与从头算（ab initio）方法的鸿沟将会变得没有那么难以逾越，从头算与经典力场的结合也会更容易，从而可以解决更高级别的问题。

至于未来十年这些新技术能带来哪些改变？比如只需两天就能找到新的阳极材料？我认为不太可能。但不论到哪个阶段，都需要行业专家利用领域经验知识提炼问题、简化问题、找出关键问题，再进行百万原子模拟，并与工业界的工艺过程结合，我相信这可以推动相关工艺向前迈进一大步。

刘铁岩：最后想问汪教授，当时为什么会选择进入材料领域，并且三十年如一日地坚持下来？另外，作为一位成功的学者，您对从事学术研究的年轻人是否有一些建议可以帮助他们更好地管理自己的职业生涯？

汪林望：对我个人而言，选择材料科学领域是个偶然。我在美国留学时，神经网络研究非常火热，那是真正生物学意义上的神经网络，我也花费了两年时间来学习和研究诸如大脑六层神经网络结构，以及人脑思维的模型等等。不过找博士导师的时候，我发现很多导师已经有博士生了，最后找到了比较务实的电子结构计算方向。那个时候第一性原理计算刚刚开始不久，所以我的学术生涯也正好见证了第一性原理计算的发展与起飞。在这同一时间段，计算机的运行速度增加了几万倍，它成为第一性原理计算背后的强有力的推动力。

我发现这两者的结合开发是一件非常有意思的事。当你在一个方向中深入研究时，你会发现有越来越多的东西值得探索。当计算机速度加快之后，算法的相应改变和开发也变得十分重要。总的算力的提升有一半来自于计算机，另一半来自于算法的提升。这也能看出自然科学、材料科学与计算机发展结合是一个必然的趋势。

总之，找到方向深入钻研，然后再慢慢地拓宽范围，这是成功的基石。重要的是，不要被外界浮躁的事物所打扰。