通用势能模型笔记

这两年，通用机器学习原子间势（Universal Machine Learning Interatomic Potentials, uMLIPs）已经不只是“更快的势函数”了。更准确的说法是：它们正在向“原子尺度基础模型”靠拢。和早期为单一材料、单一相区、单一任务定制的 MLIP 不同，uMLIPs 追求的是跨元素、跨结构维度、跨温压条件、跨任务的零样本可用性：训练一次，尽可能在金属、半导体、离子化合物、小分子、表面、界面甚至复杂反应环境中都能直接上手。MACE 的 foundation model 工作把这种思路说得很清楚：目标不是再做一个“某体系专用势”，而是做一个可以直接作为下游起点、并在少量数据上快速适配的通用原子模型。(arXiv)

但真正值得注意的，不是“它们能不能替代 DFT”这种过于宽泛的问题，而是在什么物理问题上，它们已经足够好；在什么问题上，它们还会系统性失真。这一点，近年的 benchmark 已经给出比宣传材料更有价值的答案：在平衡结构优化、常规弛豫和大规模筛选上，主流 uMLIPs 已经相当成熟；但一旦进入声子、缺陷、高压、低维体系、迁移势垒、界面反应这些更“挑剔”的问题，模型间差异会迅速放大，而且很多误差并不是随机噪声，而是有明确来源的系统偏差。(Nature)

1. 技术路线

从方法演进看，uMLIPs 大致经历了三步。第一步是手工描述符时代，例如 Behler–Parrinello 一类方法，用人工设计的局域环境函数把原子邻域映射成固定长度特征；第二步是图神经网络时代，把“原子—键—邻域”直接表示成图，通过消息传递自动学习特征；第三步则是今天的主流路线：把物理对称性直接写进网络结构里，尤其是旋转、平移和原子置换对称性。这样做的核心收益，不只是“更优雅”，而是能显著减少模型为了“学会正确坐标变换”而浪费的数据量。MACE 的核心思想就是高阶等变消息传递；SevenNet 则明确建立在 NequIP 这类等变框架之上；CHGNet、MatterSim、ORB、DPA-3 分别走了不同的图网络或大模型路线，但本质上都在回答同一问题：如何在保持物理一致性的同时，把化学空间做大。(arXiv)

这里有一个很容易被忽略的判断标准：一个模型是否真的适合作为“通用势”，不在于它在某个静态 benchmark 上分数高，而在于它是否能把“局域化学环境的表示”做得足够稳健。MACE 之所以很强，不只是因为它准，而是因为它把 ACE 的多体展开思想和等变消息传递结合起来，用更少的 message passing 步数表达更高体阶的相互作用。原论文强调，四体消息可以把常见 MPNN 需要五六层才能达到的表达能力，压缩到两层左右，这既提升了并行效率，也改善了学习曲线。(arXiv)

2. 损失函数

uMLIPs 的训练目标通常写成下面这种形式：

$$ L = p_E (E_{DFT} - E_{model})^2 + p_F \sum_i (F_{DFT,i} - F_{model,i})^2 + p_V (V_{DFT} - V_{model})^2 $$

这个式子表面上只是一个加权最小二乘，真正重要的是它隐含了三个层次的物理约束：能量决定势能面的整体高度，力决定势能面的局部斜率，应力/维里张量决定晶格响应和弹性信息。也就是说，模型不是只学“哪种构型更稳定”，而是在学一个完整的势能面局部几何。声子、弹性常数、迁移势垒、热容这类二阶或更高阶响应性质，本质上都建立在“势能面曲率”是否准确这个问题上。近年的声子 benchmark 也正是抓住这一点：如果模型在平衡附近的二阶导数不对，那么即使结构优化看起来很像 DFT，振动和热力学性质依然会系统性偏掉。(Nature)

这也是为什么“只看力 MAE”会有误导性。一个模型可以在平均力误差上不错，却在高能构型、缺陷邻域、过渡态附近把势能面整体压软；反过来，一个模型如果能把保守力场结构维持好，即便参数量没那么夸张，也可能在真实模拟里更稳定。很多近年的工作已经把评价重点从单点误差转向结构弛豫、动力学稳定性、响应性质和势能面探索能力，这是很正确的方向。(Nature)

3. 主流模型

3.1 MACE

如果只允许我给一个“最稳妥的通用起点”，我会先想到 MACE。原因不是它在所有 benchmark 都第一，而是它在精度、稳定性、可迁移性、微调友好性之间做得最均衡。MACE 的 foundation model 论文直接把它定位成 general-purpose atomistic model：从固体、液体、气体到界面和小分子，都能开箱即用；更关键的是，它明确把“少量数据微调后达到 ab initio 精度”作为设计目标，而不是额外附带的功能。后续关于 frozen transfer learning 的工作也说明，MACE-MP 在低数据 regime 下微调效率非常高，往往比同数据量从头训练更划算。(arXiv)

从架构上看，MACE 的优势在于高体阶等变消息传递，这使它比很多传统等变 GNN 更善于在较少层数下表达复杂局域相互作用。它不是最快的，但通常是“又准又不太折腾”的那个。需要注意的是，MACE 也并不免疫于通用势的经典问题：在缺陷、表面、迁移势垒和声子等任务上，它同样会出现 PES softening，只是程度常常比更早期模型轻。(arXiv)

3.2 SevenNet

SevenNet 的核心模型建立在 NequIP 之上，同时非常强调并行 MD 和大规模可用性。它的官方实现直接把“预训练通用势”和“微调接口”作为主要功能，并且支持 LAMMPS 并行模拟。近年的声子 benchmark 中，SevenNet-0 的表现已经明显进入第一梯队；而一项针对近 11,000 个弹性稳定材料的弹性性质 benchmark 预印本进一步指出，SevenNet 在弹性性质预测上是四个主流模型里最准确的，MACE 和 MatterSim 则在精度与效率之间更均衡，CHGNet 相对落后。这里要强调一下，这个弹性 benchmark 目前还是预印本，所以更适合当作趋势判断，而不是最终定论。(GitHub)

我对 SevenNet 的理解是：它代表了等变模型路线在工程可用性上的一次成熟落地。如果你的任务偏向弹性、结构响应、无机液体或电解质 MD，这类模型通常会比“只追求快”的路线更让人放心。与此同时，SevenNet 也不是“万能免疫体”。在一些出训练分布较远的液体、电解质或特殊化学环境中，它仍需要微调，相关工作已经展示了这一点。(arXiv)

3.3 MatterSim

MatterSim 很有代表性，因为它提醒了一个事实：架构不一定越复杂越好，关键是数据覆盖和训练策略是否足够大、足够系统。MatterSim 基于 M3GNet 路线，但训练目标明确指向“跨元素、跨温度、跨压力”，论文摘要给出的覆盖范围是 0–5000 K 和最高 1000 GPa。更重要的是，在 2025 年的声子 benchmark 中，MatterSim-v1 在七个主流模型里是声子性质最准确的一个，误差分布接近以零为中心，甚至优于更复杂的等变模型。(arXiv)

不过，MatterSim 也有很明确的边界。官方仓库直说了：当前版本主要为体相材料的原子模拟设计，遇到表面、界面以及受长程相互作用显著影响的性质时，只能期待定性正确，不建议直接拿来做定量分析，最好先微调。也就是说，MatterSim 的强项非常突出：体相、热力学、声子、温压扩展；但一旦任务明显偏离 bulk inorganic 这条主航道，最好别把“通用”误读成“无需校正”。(GitHub)

3.4 ORB-v3

ORB-v3 的吸引力很直接：它把“速度—内存—精度”的 Pareto 前沿往前推了一大截。官方论文摘要给出的结论是，相比此前路线，它能在接近 SOTA 表现的同时，把延迟降低到原来的十分之一以下、内存占用降到八分之一以下。ORB 系列同时提供 conservative 和 direct 等不同模式，这本身就暴露出它的设计哲学：不是为了把物理约束做得最死，而是为了让大规模模拟真正跑得动。(arXiv)

但 ORB 也是一个非常适合“按任务使用”的模型。2025 年的声子 benchmark 给出的结论很值得记住：ORB 在平衡几何上极其准确，但在声子这样依赖高阶导数和严格保守性的任务上，质量明显下降；作者把问题直接归因于其非保守力预测路径——力不是通过能量对坐标求导得到，而是网络单独输出。换句话说，ORB 特别适合高通量结构筛选、快速弛豫、超大系统搜索；但对于严格依赖能量守恒和局部曲率精度的任务，尤其是冻结声子、精细振动谱和某些 NVE 动力学问题，需要非常谨慎。(Nature)

3.5 CHGNet

CHGNet 的独特之处，不在于它是否“全能”，而在于它把电荷/磁矩信息显式带入图网络势。原始论文强调，CHGNet 预训练于 Materials Project Trajectory Dataset 上的能量、力、应力和磁矩，显式引入磁矩后，模型能够更好地刻画轨道占据与离子体系中的电子自由度。这也是它在锂电正极、扩散、相图等问题上经常被优先考虑的原因。(Nature)

但如果问题集中在标准机械性质或“尽可能稳健的通用结构预测”上，CHGNet 往往不是第一选择。已有 benchmark 表明，它在声子和弹性任务上的整体表现不如 MatterSim、SevenNet 或 MACE。这个差异并不说明 CHGNet 不强，而是说明它更像一个带电子态偏好的专用型通用势：在合适场景里很有价值，在不对口的场景里不应强行拔高。(Nature)

3.6 DPA-3

严格说，DPA-3 与其叫“单一通用势”，不如说更接近今天所谓 large atomistic model 的路线。其论文把它定位为为“大模型时代”设计的图网络架构，并报告了两个很关键信号：一是模型性能遵循 scaling law；二是作为在 OpenLAM-v1 上训练的 DPA-3.1-3M，它在 12 个下游任务上的整体零样本泛化误差最低之一。高压 benchmark 中，DPA3-v1-OpenLAM 也表现得很稳，结构体积误差随压力升高仍能维持较低水平。(arXiv)

所以我更愿意把 DPA-3 看作一个非常值得关注的方向：它不只是追求“某个模型更准”，而是在追求模型容量、数据规模、多任务训练与迁移能力之间的系统扩展规律。这条路线未来很可能会和今天的 uMLIP 概念逐渐合流。(arXiv)

4. 关键盲点

4.1 PES softening

近年最重要的一篇负面结果，几乎可以说直接改写了大家看待通用势的方法。那篇关于 PES softening 的工作指出，M3GNet、CHGNet 和 MACE-MP-0 都存在一致的势能面软化现象：能量和力在表面、缺陷、固溶体、离子迁移势垒、声子振动以及一般高能态上呈系统性低估。作者把根源归结为预训练数据对近平衡构型的偏采样：数据大量来自离子弛豫轨迹，因此模型在势阱附近学得很好，但对高能区域的曲率学习不足。(Nature)

这件事很重要，因为它解释了一个常见悖论：为什么有些模型结构优化看着很准，但一算缺陷形成能、声子频率、扩散势垒就开始“发软”。从数学上说，问题出在二阶导数；从物理上说，问题出在模型把势阱壁学得不够陡。也就是说，很多误差并不是偶然失败，而是由训练分布直接诱发的系统偏差。这类问题不是靠多跑几步 MD 能“平均掉”的。(Nature)

4.2 高压测试

“通用”如果不能过高压这一关，多少是有点名不副实的。2025 年的高压 benchmark 很有说服力：作者系统考察了 0–150 GPa 范围内多个主流 uMLIP，结论是原始模型普遍会随着压力上升而退化，只是退化幅度不同。M3GNet 在高压下体积误差显著放大；MatterSim、SevenNet、GRACE、ORB、DPA3 等模型更稳，但也不是完全不受影响。更关键的是，针对高压数据做微调后，模型性能能明显恢复，这说明问题主要还是训练覆盖不足，而不是这些架构天生不能做高压。(arXiv)

我很赞同这篇工作的一个隐含判断：高压并不是特殊兴趣爱好，而是检验模型是否真正学到“可压缩的原子相互作用规律”的试金石。一个模型在常压附近表现优异，只能说明它在数据密集区工作良好；只有跨压力仍稳定，才更接近“物理基础模型”的标准。(arXiv)

4.3 低维体系

另一个越来越清楚的现象是：很多现代 uMLIPs 在 3D 体相材料里已经非常强，但一旦降到 2D、1D、0D，精度会系统性下降。2025 年针对 0D–3D 全维度的 benchmark 明确指出，多数现代 uMLIPs 的预测准确率会随着维度降低而下降，尽管也有少数模型能维持相对稳定的表现。(arXiv)

这背后的原因并不神秘。低维体系的表面占比更大、局域配位更不饱和、长程相互作用和真空处理更敏感，而且训练集中常见的体相弛豫路径对它们并不构成良好代表。于是模型虽然“见过很多元素”，却未必“真正见过这种维度下的势能面形状”。所以如果研究对象是单层材料、纳米线、团簇、表面吸附或界面，最好默认：零样本结果可以拿来做初筛，但不能直接当最终定量答案。(arXiv)

5. 微调

到这里，其实结论已经很明显了：uMLIPs 最有价值的地方，不是“完全不需要再训练”，而是它们把下游训练从“从零开始造势”变成了“在一个已经懂大量化学的模型上做校准”。这一点，近期关于 fine-tuning 的结果已经相当一致。一个跨五类主流框架的系统性研究显示，微调后力误差通常可以下降 5–15 倍，能量误差可改善 2–4 个数量级，而且这种提升几乎不依赖底层架构：MACE、SevenNet、MatterSim、ORB 这类路线最终都能被拉到接近 ab initio 的水平。(arXiv)

这说明一个很现实的问题：今天的 foundation uMLIP，真正角色更像高质量初始猜测器，而不是永远不必更新的终局模型。它把你所需的专用数据量从“几万到几十万构型”压缩到“少量、但高相关的数据”；真正决定能否做到近实验或近 DFT 精度的，不再只是模型大不大，而是你是否为目标体系补上了那一小块最关键的分布缺口。MACE 的 frozen transfer learning、SevenNet 在电解液上的微调、MatterSim 的官方 finetune 支持，都在同一个方向上收敛。(Nature)

所以在实际工作流里，我更推荐把“预训练 + 少量高质量微调”当成默认配置，而不是把“零样本通用”当成唯一目标。前者是真正能落地的 scientific workflow，后者更多是模型研发阶段的能力展示。(arXiv)

6. 建议

如果任务是超大规模筛选、快速结构弛豫、优先看吞吐量，ORB-v3 这类模型很值得优先考虑；如果任务是常规材料模拟、想要尽量稳健的默认选项，MACE 往往最合适；如果任务更偏弹性、声子、结构响应，SevenNet 和 MatterSim 通常更值得优先测试；如果问题涉及磁矩、氧化还原、离子体系中的电子态耦合，CHGNet 仍然有明显优势；如果你关注的是大模型路线、跨数据集迁移和长期演化潜力，DPA-3 很值得跟进。(Nature)

但无论选哪一个，真正靠谱的策略其实都差不多：先用通用势做预筛和预探索，再用针对目标体系的小规模 DFT 数据做微调，最后再上长时间尺度或高阶性质计算。这一套流程既承认 foundation model 的价值，也尊重它的边界。对今天的 uMLIPs 来说，这不是保守，而是专业。(arXiv)

参考资料

Batatia, I. et al. A foundation model for atomistic materials chemistry. (arXiv)
Batatia, I. et al. MACE: Higher Order Equivariant Message Passing Neural Networks for Fast and Accurate Force Fields. (arXiv)
Deng, B. et al. CHGNet as a pretrained universal neural network potential for charge-informed atomistic modelling. (Nature)
Yang, H. et al. MatterSim: A Deep Learning Atomistic Model Across Elements, Temperatures and Pressures. (arXiv)
Rhodes, B. et al. Orb-v3: atomistic simulation at scale. (arXiv)
Zhang, D. et al. A Graph Neural Network for the Era of Large Atomistic Models (DPA-3). (arXiv)
Loew, A. et al. Systematic softening in universal machine learning interatomic potentials. (Nature)
Loew, A. et al. Universal machine learning interatomic potentials are ready for phonons. (Nature)
Benchmarking Universal Machine Learning Interatomic Potentials for Elastic Property Prediction（预印本）. (arXiv)
Loew, A. et al. Universal Machine Learning Potentials under Pressure（预印本）. (arXiv)
Benedini, G. et al. Universal Machine Learning Potential for Systems with Reduced Dimensionality（预印本）. (arXiv)
Radova, M. et al. Fine-tuning foundation models of materials interatomic potentials with frozen transfer learning. (Nature)
Hänseroth, J. et al. Fine-Tuning Unifies Foundational Machine-learned Interatomic Potential Architectures at ab initio Accuracy（预印本）. (arXiv)