《npj Computational Materials》:Score-based diffusion models for accurate crystal-structure inpainting and reconstruction of hydrogen positions
编辑推荐:
生成式人工智能模型(如基于分数的扩散模型(Score-based diffusion models))近年来通过实现具有期望性质的新材料生成,推动了计算材料科学领域的发展。此外,这类模型也可被用于重构仅有部分信息可用的晶体结构。一个相关的例子是对含氢晶体材料中
生成式人工智能模型(如基于分数的扩散模型(Score-based diffusion models))近年来通过实现具有期望性质的新材料生成,推动了计算材料科学领域的发展。此外,这类模型也可被用于重构仅有部分信息可用的晶体结构。一个相关的例子是对含氢晶体材料中氢原子所占据原子位置的可靠确定。尽管这对许多材料性质的分析与预测至关重要,但通过X射线散射实验识别氢位置历来具有挑战性,且往往更需要昂贵的中子散射测量。因此,尽管实验进展如今已使我们能够基于X射线散射实验准确确定氢位置,无机晶体学数据库仍然报告了许多晶格结构,其中的氢原子要么被省略,要么是通过启发式方法或化学直觉插入的。在此,研究人员将材料科学领域的扩散模型与最初在计算机视觉中为图像修补(image inpainting)开发的技术相结合。研究人员展示了这种跨领域知识迁移如何实现比无条件扩散模型或此前仅基于密度泛函理论(DFT)的方法更快速、更准确的宿主结构补全。总体而言,当应用于来自MC3D数据库的含氢材料测试数据集时,研究人员的方法在找到结构匹配或预测出比初始实验源数据库参考结构更稳定构型(根据DFT)方面的成功率超过97%(当排除MC3D中标记为理论的结构时成功率超过99%),且无论起始结构是已由DFT弛豫过的结构,还是直接来自实验确定的宿主结构,均如此。
研究背景:晶体结构预测(CSP)领域近年因深度学习生成模型尤其是基于分数的扩散模型(Score-based diffusion models)而取得显著进展,这类模型通过学习复杂分布来实现新材料生成。除全结构生成外,另一重要方向是对部分已知信息的晶体结构进行重构与补全(inpainting)。含氢晶体材料是一个典型场景:氢在所有原子中X射线与电子散射能力最低,而中子衍射虽能准确确定H位置,但依赖大设施、样品量大、成本远高于常规实验室X射线衍射;虽然后来量子晶体学(quantum crystallography)与Hirshfeld原子精修(Hirshfeld atom refinement)等进展使X射线方法定位氢的准确性接近中子衍射,且三维电子衍射(3D electron diffraction)等技术也逐渐应用,但历史无机晶体学数据库中大量含氢结构仍存在氢位省略或由启发式/化学直觉插入的问题,数据质量不均,制约了依赖完整结构的材料数据库与原子尺度模型应用。因此,研究者开展本研究:借助材料科学扩散模型与计算机视觉图像修补(image inpainting)技术的跨域迁移,针对含氢晶体结构在已知宿主结构(去除氢位)条件下重构氢位置,并与无条件扩散模型、纯DFT基准方法进行性能对比。论文发表在《npj Computational Materials》(《npj 计算材料学》)。研究发现:研究者在MatterGen架构基础上重训练仅去噪原子位置的模型,引入TD-Paint(时间感知像素条件扩散修补)思路使模型支持每原子位点不同噪声水平以更好条件于已知宿主位(干净无噪声),形成pos-only-TD模型;结合机器学习原子间势(MLIP,如NequIP)做约束弛豫与全原子弛豫,工作流程为:已知宿主结构+已知氢位数量→随机初始化氢位→pos-only-TD扩散去噪(Nsteps步)→MLIP约束弛豫(固定非氢位、晶胞,仅弛豫氢)→MLIP全原子弛豫(非氢位+氢,固定晶胞)→按MLIP能量选最优采样或进一步DFT验证。基准数据集来自MC3D数据库PBE-v1版本:DFT数据集(DFT弛豫后的含氢结构,862个)与EXP数据集(对应实验源结构,来自COD、ICSD、MPDS,915个);训练时从Alex-MP-20集中剔除与测试集结构匹配或原型匹配的重叠以防数据泄漏;pos-only-TD训练采用每结构一个噪声水平ti,并对训练中20%位点替换t≈ε(近零噪声)以使模型理解已知位点无噪声。关键结果如下:比较不同修补方法单试次结构匹配率,pos-only-TD优于pos-only、pos-only-RePaint(RePaint算法+pos-only)、原MatterGen基线,也高于纯DFT基准(≈77%,子集无pinball情况时≈87%,pos-only-TD在该子集达88%);pos-only-TD可用更少去噪步(300步几乎无性能损失,50步仍优于pos-only更多步),且扩散轨迹中RMSD下降更早更快、终值更低;生成30样本/结构后用MLIP选最稳定样本,定义成功为结构匹配(StructureMatcher)或预测构型能量低于参考(LES匹配,Lower Energy or Structural),DFT+MLIP数据集LES率达约99%(k=30样本)、98.6%(k=10),EXP+MLIP达98.7%(k=30)、98.1%(k=10);DFT直接弛豫验证:在DFT与EXP集中各取最稳MLIP样本且未结构匹配的结构(114和132个,部分DFT不收敛剔除),DFT弛豫后分别有84.2%和77.4%预测能量低于参考,证实非结构匹配但更稳定的情况真实存在而非MLIP伪影;模型在训练集原上限20原子/晶胞外至40原子/晶胞仍保持高性能(>90% LES率,>32原子/晶胞略有下降),表明超越训练域适用性;若排除MC3D中标记为theoretical的结构,EXP集LES率超99%;分析不匹配案例:部分因NequIP与DFT能量排序差异(用DFT选最稳样本可再提升LES率至>99%),部分对应源数据库转录问题或实验原文献即指出氢难定(X射线弱散射),模型给出更低能量合理构型(如水分子取向调整、不同Wyckoff位氢排列等),可辅助实验精修与数据质控;模型与流程氢无关(hydrogen-agnostic),可迁移至离子插层(如Li、Na)、μ子停驻位预测等其他位点补全任务;代码发布于XtalPaint包并集成AiiDA框架。讨论部分总结:研究者展示了计算机视觉修补技术(如TD-Paint)适配材料科学晶体结构修补的有效性,扩展MatterGen得到pos-only-TD模型,在含氢结构宿主已知下去噪氢位置,结合MLIP弛豫,整体LES成功率97%(DFT起始)至99%(EXP排除理论结构,或用DFT选样本),超越无条件扩散与纯DFT基准;模型在≤40原子/晶胞表现良好(训练仅≤20),且氢无关性使其可迁移至其他位点补全问题;少数非LES情况多关联数据库质量或理论结构标签,模型可辅助发现需复核的实验数据;未来可扩展自动推断缺失位点数(如扫描Ninpainted∈{1,…,Nmax}并结合凸包与形成能筛选),以及允许晶胞调整以适应插层等问题;方法与XtalPaint公开可用。
主要关键技术方法:研究者基于MatterGen(一种SE(3)等变图神经网络扩散模型,原训练去噪原子分数坐标、晶格、原子类型,采用方差爆炸SDE(VE SDE):dx=√[dσ2(t)/dt] dw,离散迭代xt-1=xt+(σt2?σt-12)sθ*(xt,t)+z√[σt-12(σt2?σt-12)/σt2])进行修改:训练pos-only模型仅去噪原子位置(固定晶格、原子类型),并将TD-Paint思路实现为每原子位点可具独立噪声水平——训练时每结构采样统一ti,随机选20%位点替换为t≈ε(近零噪声)以让模型学会条件于无噪声已知宿主位;推理修补时已知宿主位始终带t≈ε(无噪声),待补氢位带正常ti,合并执行去噪(公式(5):xτ=xt?⊙(1?m)+x0⊕⊙m)。作为对比也测试原MatterGen、pos-only+RePaint(RePaint:去噪中来回重加噪声于已知区以调和区域一致性,增加步数)。数据集来自MC3D数据库PBE-v1:DFT集为MC3D中DFT弛豫含氢结构(862个,≤20原子/晶胞为主,扩展测试21–40原子子集1276个),EXP集为对应实验源结构(COD、ICSD、MPDS,915个,扩展1709个);训练集用Alex-MP-20(MatterGen原训练集),剔除与DFT、EXP测试集结构匹配(StructureMatcher)及同原型(aflow_sym_label:chemsys)者以防泄漏。弛豫用机器学习原子间势(MLIP):主要选NequIP基础模型(E(3)等变图神经网络势),也对比其他universal MLIP(MatterSim、PET-MAD、ORB-v3等)以验证能量排序一致性;DFT验证用Quantum ESPRESSO、SSSP PBE Efficiency v1.3.0赝势、k点间距≤0.15 ??1、力阈值10?? Ry/bohr、能量阈值10?? Ry/atom。纯DFT基准方法:基于静电势V(r)=∑AZA/|RA?r|?∫ρ′(r′)d r′/|r′?r|找电子富区极大作为候选H位,数目吻合则直接放H固定宿主弛豫;过多则用pinball组合搜索最稳排列,迭代至所有H恢复后全弛豫。评估指标:结构匹配率(pymatgen StructureMatcher默认容差ltol=0.2, stol=0.3, angle_tol=5),LES匹配(结构匹配或预测MLIP弛豫后能量低于参考MLIP弛豫后能量),DFT验证时用DFT弛豫能量差;单试次与多试次(k=1,2,…,30采样,bootstrap估计不确定度)性能;按单元原子数、数据集类型分层分析;也分析扩散轨迹RMSD、未弛豫vs弛豫影响、宿主非氢位在预测后是否仍匹配等。
研究结果:
比较修补方法:研究者对比MatterGen基线、pos-only(重训仅位置去噪)、pos-only-RePaint(加RePaint算法)、pos-only-TD(TD-Paint式每位点噪声训练)在DFT测试集上单试次结构匹配率,发现pos-only优于原MatterGen(去噪多余自由度损害性能),pos-only-RePaint仅减小方差未提整体率且步数增至约1000(若要明显优势需~4000步),pos-only-TD最高;纯DFT基准匹配率≈77%(共同结构子集≈87%,pos-only-TD在该子集88%)。图1b显示pos-only-TD可用300去噪步几乎无损失(训练1000步),50步仍优于pos-only更多步;图1c显示pos-only-TD在最终结构匹配案例中RMSD沿扩散轨迹更早下降、斜率更负、终值更低,表明更快逼近正确流形且输出更接近局部最小。
预测的能量与结构一致性:研究者对DFT与EXP集各生成30样本/结构,用NequIP弛豫(约束弛豫氢→全原子弛豫固定晶胞)后,仅看结构匹配的预测:DFT集预测与参考(DFT弛豫)的NequIP弛豫前后能量差中位仅2 meV/原子,EXP集5 meV/原子,说明扩散输出已近MLIP局部最小;将参考也用同NequIP弛豫得DFT+MLIP、EXP+MLIP集,全弛豫后预测vs参考的原子位置RMSD(归一化总原子数)多数<0.01 ?,表明预测弛豫后构型与从参考弛豫者高度一致;能量差累积分布:结构匹配案例集中在ΔE≈0 eV处阶跃,非匹配案例多数ΔE<0(预测更稳定)。为验MLIP结论非伪影,研究者对DFT、EXP集中“30样本中最稳MLIP样本未结构匹配”的结构(114和132个,剔除DFT不收敛者)做DFT位置弛豫(固定晶胞),结果84.2%(DFT集)、77.4%(EXP集)预测DFT能量低于参考DFT能量,证实非匹配但更稳情况真实。
超越训练域的最大化性能:多试次下选最稳MLIP样本计LES率(结构匹配或ΔE<0),k=30时DFT+MLIP达约99%、EXP+MLIP约98.7%,k=10时98.6%、98.1%,k=1时约88%(DFT+MLIP)、87%(EXP+MLIP);用DFT(而非MLIP)选最稳样本可再提升至>99%(DFT集)。按单元原子数分层(≤20来自前述集,21–40为扩展集,k=30对≤20、k=10对21–40,DFT弛豫验证最稳MLIP样本):≤20原子时LES率近99%(DFT+MLIP)、98.7%(EXP+MLIP),21–40原子时仍>90%(EXP在>32略降);纯DFT基准平均LES率明显低于pos-only-TD各层。若排除EXP集中MC3D标记为theoretical的结构(剩577个),非LES仅5例,成功率>99%。另外仅4.4%(DFT)、4.1%(EXP)预测弛豫后非氢宿主原子与参考不匹配,说明即使氢预测未全结构匹配,宿主结构多保持不变且能量更低来自氢位与微调宿主位。
检视不匹配与更低能量匹配:研究者分析EXP集不匹配(预测能量高于参考)案例:数例属MC3D标记theoretical;数例ΔE很小且源于氢取向略异(NequIP选最稳样本非结构匹配但另一样本会匹配);分子晶体H2C4N10中氢落分子另一侧致高能;H4Pd2Pb4O8部分氢位不同且键合异致ΔE=58 meV/原子高。更低能量案例:Rb4H4S4O8(ICSD-425888)原XRD未能定水分子氢,模型预测水取向层内对齐,DFT更稳;BaLiH3(MPDS-S1903387)、YMn2H6(MPDS-S1832431)预测氢位与源数据库不同但符合原始实验论文,说明数据库转录偏差;SrAlH3(ICSD-291483)原XRD难定氢,模型将氢归不同Wyckoff位得更低能且XRD图案近似不变,可辅助精修。这些说明模型可帮检数据库质量与辅助实验精修。
讨论部分总结:研究者总结了将计算机视觉修补技术(如RePaint、TD-Paint)引入材料科学晶体结构修补的有效性,通过对MatterGen修改得到pos-only(仅位置去噪)与pos-only-TD(每位点噪声水平、条件于已知无噪声宿主位),应用于已知宿主结构重构氢位置的任务,结合MLIP(如NequIP)约束与全原子弛豫,整体LES成功率在DFT起始集达97%、EXP集(排除理论结构)达99%,优于无条件扩散与纯DFT基准;模型虽训练于≤20原子/晶胞却在≤40原子/晶胞保持>90% LES率;方法为氢无关(hydrogen-agnostic),可迁移至离子插层位点预测、μ子停驻位生成等其他修补任务;少数非LES多关联数据库理论标签或源数据质量问题,模型可辅助发现需复核结构;未来可扩展自动推断缺失位点数(扫描Ninpainted并用凸包/形成能筛除不稳定组成),以及允许晶胞调整适应插层等;代码发布于XtalPaint并集成AiiDA;该方法能高效扩展含氢材料的计算数据库、支撑氢相关材料筛选与宿主结构位点预测研究。