世界第一!DPA4 登顶 Matbench Discovery
DPA4 是面向大原子模型(LAM)时代设计的新一代通用势函数架构。它通过局部坐标系下的 SO(2) 等变线性算子与注意力机制的协同设计,在严格满足物理对称性与能量守恒的前提下,大幅降低了等变计算的开销,并辅以原生 torch.compile 加速与原生 ZBL 支持,在工程层面进一步释放了性能。
大原子模型的竞争,正在从“谁更大”转向“谁更强、更快、更便宜”。
近日,北京科学智能研究院 OpenLAM 团队、北京大学、深势科技、北京应用物理与计算数学研究所联合推出面向大原子模型(LAM)时代的新一代模型架构 DPA4。在材料发现领域国际权威榜单Matbench Discovery上,DPA4 以综合性能指标CPS 位列世界第一,成为最新 SOTA 模型。
更值得关注的是,DPA4 并不是靠堆参数、堆算力登顶。相比此前领先模型 eSEN 需要 300 余 GPU days 的训练成本,DPA4 理论上仅需 一张 RTX 5090 训练约一天,即可达到同等级精度;同时参数量不到 eSEN 的十分之一。
也就是说,过去需要“超级算力预算”才能触达的 SOTA 精度,现在有机会被压缩到一张消费级显卡上完成。DPA4 正在重构大原子模型的“精度-效率”帕累托前沿。

Matbench Discovery官方截图,数据截至2026年5月22日
DPA4 采用局部坐标系下的 SO(2) 等变线性算子结合注意力机制的设计,在严格满足平移、旋转、排列对称性与能量守恒的前提下,大幅压缩了等变计算的开销,并在世界范围内率先实现机器学习势函数的compile训练,将训练速度提升2-3倍。在材料发现领域国际权威榜单 Matbench Discovery 与小分子基准 SPICE-MACE-OFF 上,DPA4 均取得了新的 SOTA 成绩,双双位列世界第一。尤为突出的是,DPA4 在预测精度与训练成本上同时达到了全新的帕累托前沿:理论上仅需单张 RTX 5090 显卡训练约一天,即可达到 eSEN 此前耗费 300 余 GPU days 才能实现的精度水平,并且参数量不到后者的1/10;而在相同精度下,其训练效率较上一代 DPA3 进一步提升约 10 倍。

DPA4重构大原子模型“精度-效率”帕累托前沿(含其余Direct Force预训练模型)
目前 DPA4 已面向Deep Modeling社区开放尝鲜,论文与正式版本将于后续陆续开源,欢迎广大研究者持续关注并加入文末微信尝鲜群交流。以下为详细的DPA4介绍。
DPA4 模型结构:
局部坐标系下的 SO(2) 等变设计
长期以来,等变模型为了在全局坐标系下保持旋转对称性,必须依赖 Clebsch–Gordan 张量积来耦合不同阶的几何特征,其计算复杂度随角动量阶数急剧增长(约 ,这正是高精度等变模型计算昂贵的根本原因。
DPA4 的核心思路是:与其在全局坐标系下承担昂贵的张量积,不如把对称性"约化"到更简单的子群上处理。具体而言,对每一条原子间的边,DPA4 都构造一个光滑的局部坐标系,将该边方向对齐到统一的参考轴。在这一局部坐标系中,原本需要在整个 SO(3) 群上处理的旋转等变性,被约化为仅需在绕轴旋转的 SO(2) 子群上处理——而 SO(2) 是阿贝尔群,其等变线性映射具有极为简洁的分块结构。由此,昂贵的 SO(3) 张量积被等价地替换为高效的 SO(2) 等变线性算子,在严格保持完整旋转等变性的同时,将角向计算的开销大幅压缩。
在此基础上,DPA4 进一步引入注意力机制完成邻居信息的聚合:模型能够根据局部几何与化学环境,自适应地"关注"对中心原子最关键的相互作用,从而在紧凑的参数规模下获得强大的表达能力。整个模型严格满足平移、旋转、排列对称性与能量守恒,物理一致性得到完整保证。
除算法层面的设计外,DPA4 在工程实现上同样面向效率优化:
-
原生 torch.compile 支持:模型从设计之初即对编译友好,可直接借助
torch.compile获得显著的端到端加速,无需额外改写。 -
原生 ZBL 短程势:DPA4 原生集成 ZBL 排斥势,平滑衔接近距离的物理行为,使模型在高压、辐照、缺陷等极端构型下更加稳健可靠。

DPA4模型结构
榜单表现:
Matbench Discovery 与 SPICE-MACE-OFF 双双登顶
材料发现:Matbench Discovery 世界第一。 Matbench Discovery 由加州大学伯克利分校、剑桥大学等顶尖机构发起,是全球 AI 驱动无机材料发现领域最具影响力的动态基准榜单,被公认为衡量材料科学智能模型性能的国际金标准。它摒弃了简单的静态数据拟合,转而通过前瞻性测试机制,要求模型预测数十万种未知晶体的热力学稳定性,真实还原科研探索的全过程;其评价体系不仅考察能量与力的预测精度,还综合 F1 分数、发现加速因子等多项指标,最终汇聚为综合性能分数 CPS。在汇集了 Meta、微软及全球顶尖高校最强模型的同台竞技中,DPA4 以 CPS 综合性能位列世界第一,成为最新的 SOTA 模型。

Matbench Discovery官方截图,数据截至2026年5月22日
小分子:SPICE-MACE-OFF 同样领先。 DPA4 的优势并不局限于无机晶体。在分子领域的权威基准 SPICE-MACE-OFF 上,DPA4 以更低的参数量取得了新的 SOTA 成绩,力压此前的领先模型 eSEN,位列第一。从晶体材料到有机小分子、从能量到力的预测,DPA4 展现出跨体系、跨领域的一致优越性,进一步印证了其作为通用势能面模型的潜力。

SPICE-MACE-OFF表现
效率对比:
重构"精度–效率"的帕累托前沿
如果说"双榜第一"证明了 DPA4 的精度,那么真正使其与众不同的,是它拿下这一精度的代价之低。
在以往,登顶榜单往往意味着更大的参数规模与更高的训练成本。DPA4 则在精度与训练成本这两个维度上同时刷新了帕累托前沿:
-
训练成本:理论上仅需 单张消费级 RTX 5090 显卡、训练约一天,即可达到此前榜单 SOTA 模型 eSEN 耗费 300 余 GPU days 才能实现的精度水平;
-
参数规模:在相同CPS下,DPA4 的参数量不足 eSEN 的十分之一;
-
代际提升:在相同精度下,DPA4 的训练效率较上一代 DPA3 进一步提升约 10 倍。

DPA4重构大原子模型“精度-效率”帕累托前沿
想要达到数量级的效率提升离不开工程上的优化,torch.compile在普通的AI模型训练中是一个相对免费的提升,但是在机器学习势的训练中,力是能量的导数,因此势函数的训练离不开double backward,而compile却不支持double backward,因此长期以来,在机器学习势的训练中只能通过不断增大batch size来最大化GPU的利用率。DPA4在世界范围内率先实现原生支持 torch.compile 编译的训练加速,并通过autocast到bf16精度实现显存的大幅降低,为单卡训练更大的模型提供了基础。

DPA4开启compile以及amp的训练时间以及峰值显存占用对比
这一结果意味着,在同等算力预算下,研究者能够更快地完成训练与迭代、模拟更大尺度与更长时间跨度的微观过程。DPA4 把大规模、高通量的原子模拟,从"算力奢侈品"真正带入了"日常可用"的范畴,对电池材料、催化剂设计、半导体探索等领域具有重要的应用价值。
总结
DPA4 是面向大原子模型(LAM)时代设计的新一代通用势函数架构。它通过局部坐标系下的 SO(2) 等变线性算子与注意力机制的协同设计,在严格满足物理对称性与能量守恒的前提下,大幅降低了等变计算的开销,并辅以原生 torch.compile 加速与原生 ZBL 支持,在工程层面进一步释放了性能。
在材料发现榜单 Matbench Discovery 与小分子基准 SPICE-MACE-OFF 上,DPA4 双双登顶世界第一,并在精度与训练成本上同时达到了全新的帕累托前沿——以不足十分之一的参数量、单卡一天的训练成本,匹敌乃至超越了昂贵的大模型。DPA4 有力地证明:高精度与高效率,从来不是一道单选题。
目前 DPA4 已面向 Deep Modeling 社区开放尝鲜,论文与正式版本将于后续陆续开源。在走向大原子模型时代的征途上,开源开放始终是我们坚持的主题,欢迎广大研究者持续关注,并加入交流、共同探索。
主要开发者及单位:
李天成(北京大学,北京科学智能研究院)
薛建明(北京大学)
张林峰(深势科技、北京科学智能研究院)
张铎(北京大学,北京科学智能研究院)
王涵(北京应用物理与计算数学研究所)
「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。
更多推荐



所有评论(0)