面向原子尺度模拟的大规模原子多样性数据集:推动通用机器学习势函数发展
《Scientific Data》:Massive Atomic Diversity: a compact universal dataset for atomistic machine learning
【字体:
大
中
小
】
时间:2025年11月22日
来源:Scientific Data 6.9
编辑推荐:
本研究针对现有原子尺度机器学习数据集局限于平衡结构、存在计算不一致性等问题,开发了大规模原子多样性(MAD)数据集。该数据集通过系统扰动稳定结构,采用一致的密度泛函理论(DFT)参数,涵盖有机/无机体系,包含不到10万个结构却实现了优异的原子多样性。基于MAD训练的通用势函数PET-MAD在离子电导、熔点预测等任务中媲美专用模型,为复杂模拟提供了轻量级、高一致性的数据基础。
在计算材料科学领域,原子尺度模拟犹如探索微观世界的"显微镜",而机器学习势函数正成为加速这一过程的关键工具。传统上,开发高精度势函数依赖于大规模量子力学计算,但现有数据库多聚焦于平衡结构,就像只收集了山峰顶点的地图,却缺失了通往山顶的路径信息。这导致训练出的模型在模拟非平衡过程时容易"迷失方向",限制了对相变、缺陷演化等重要现象的研究。
更棘手的是,不同数据集间存在计算参数不一致的"方言差异"。例如,某些材料采用特殊的Hubbard U修正,而其他体系则使用标准泛函,这种"混合方言"使得模型难以建立统一的结构-能量映射关系。此外,有机与无机材料通常被分隔在不同数据库中,阻碍了通用势函数的开发。
针对这些挑战,洛桑联邦理工学院等机构的研究团队在《Scientific Data》发表了题为"Massive Atomic Diversity: a compact universal dataset for atomistic machine learning"的研究,提出了一个具有"大规模原子多样性"的数据集解决方案。该研究的核心创新在于:通过精心设计的结构扰动策略,在保持数据集轻量化的同时,实现了对构型空间的最大化覆盖。
研究人员采用"由点及面"的策略,从Materials Cloud等数据库的稳定结构出发,通过引入随机扰动、元素替换、表面切割等多种手段,系统性地扩展了构型空间的覆盖范围。如图1所示,MAD数据集涵盖了85种元素,虽然总数不足10万,但通过MC3D-rattled(添加高斯噪声)、MC3D-random(随机元素替换)、MC3D-surface(表面切割)等子集的组合,实现了对主族元素的良好覆盖。
关键技术方法包括:采用Quantum Espresso v7.2进行一致的DFT计算,使用PBEsol泛函和SSSP赝势库;通过sketch-map非线性降维算法将高维结构特征投影至低维空间;基于PET-MAD模型提取512维原子环境特征,并通过多层感知机实现参数化映射;利用Chemiscope构建交互式数据探索平台。
数据集构建与验证
通过系统性的结构生成协议,研究人员构建了8个特征各异的子集。MC3D-rattled通过对晶体原子位置添加共价半径20%的高斯噪声,有效扩展了势能面(PES)的局部区域覆盖。MC3D-random则通过随机替换元素种类,创造了大量"非常规"化学组合,虽然DFT收敛率仅为55%,但极大增强了模型的外推能力。图2的能量和力分布显示,衍生子集覆盖了更宽的能量范围,为训练稳健模型提供了关键数据支持。
化学空间可视化
研究团队开发了创新的材料"地图绘制"工具。通过PET-MAD模型的最后一层特征,构建了包含结构均值和标准差的1024维描述符,进而利用sketch-map投影获得低维表示。图3的欧氏距离分布表明,MC3D-random子集具有最宽的多样性,而分子数据集分布相对集中。图4的主成分分析证实了数据集固有的高维特性。
与现有数据集对比
通过统一的特征空间对比显示,MAD数据集在化学空间覆盖上具有显著优势。如图6所示,SPICE和MD22等数据集投影区域相对狭窄,而MAD的MC3D-random结构形成了广泛分布。图7的对比进一步证实,MAD在保持轻量化的同时,实现了比Alexandria、MPtrj等数据集更广的化学空间覆盖。
通用性验证
研究展示了PET-MAD模型在多个复杂模拟任务中的卓越表现。如图8所示,在铝熔化的分子动力学模拟中,第三个潜在特征能够清晰分辨固液相变,其分辨能力可与专门设计的序参量相媲美。这表明MAD数据集训练的特征可能作为"通用集体变量",为复杂转变过程的研究提供新工具。
该研究通过创新的数据集设计理念,证明了"质量重于数量"的原则在原子尺度机器学习中的有效性。MAD数据集虽小但精,其核心价值在于通过智能化的结构采样策略,实现了构型空间的高效覆盖。这种"小而美"的设计哲学为数据驱动的材料研究提供了新范式,既降低了计算成本,又提高了模型的泛化能力。
更重要的是,研究发展的化学空间可视化工具为材料数据集的特征分析建立了通用框架。sketch-map与神经网络结合的参数化投影方法,实现了高维特征到低维空间的可复现映射,为材料数据的探索和比较提供了标准化方案。
这项工作的深远意义在于,它为解决原子尺度模拟中的"数据瓶颈"问题提供了切实可行的方案。通过平衡数据质量、多样性和计算成本,MAD数据集为开发真正通用的机器学习势函数奠定了坚实基础,有望推动计算材料学向更复杂、更真实的多尺度模拟迈进。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号