
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于生成模型的粉末X射线衍射晶体结构解析技术突破
《Nature Communications》:Powder diffraction crystal structure determination using generative models
【字体: 大 中 小 】 时间:2025年08月12日 来源:Nature Communications 15.7
编辑推荐:
研究人员针对粉末X射线衍射(PXRD)晶体结构解析耗时费力、精度受限的难题,开发了端到端神经网络PXRDGen。该模型通过整合预训练XRD编码器、扩散/流式结构生成器和Rietveld精修模块,实现了秒级原子级精度结构解析,在MP-20数据集上达到单样本82%、多样本96%的匹配率,RMSE逼近Rietveld精修极限,成功解决了轻元素定位和相邻元素区分等传统PXRD技术瓶颈。
在材料科学、化学和物理学等领域,准确解析晶体结构是理解材料性质的关键。然而,传统的粉末X射线衍射(PXRD)结构解析面临三大困境:衍射峰重叠导致强度模糊、轻元素(如氢)定位困难、相邻原子序数元素(如Mn/Fe)难以区分。尽管单晶XRD是金标准,但多数材料仅能以粉末形式获得,使得PXRD成为更通用的表征手段。目前PDF数据库中有超过47万条未完全解析的原子坐标记录,凸显技术革新的紧迫性。
中国科学院的研究团队在《Nature Communications》发表突破性成果,开发出PXRDGen生成模型系统。该系统通过预训练XRD编码器(PXE)实现衍射图谱与晶体结构的潜在空间对齐,结合流式生成模型(CSG)实现晶格参数(L)和原子分数坐标(Fi)的联合生成,最终通过自动化Rietveld精修(RR)模块验证。关键技术包括:1) 基于卷积神经网络(CNN)的XRD特征提取;2) 流式匹配(Flow Matching)生成框架实现50步快速收敛;3) CellNet神经网络独立预测晶格参数;4) 动态时间规整(DTW)算法优化晶格选择。
研究结果显示:
模型架构优化:CNN-XRDEncoder在结构生成中表现优于Transformer架构,流式模型单样本匹配率达68.68%,较扩散模型提升3.6倍速度。

晶格参数约束:当输入正确晶格参数时,有效化合物匹配率提升至82.7%(单样本)和96.71%(20样本),NaTiVS4案例显示RMSE可从0.3降至0.02。

挑战性结构解析:在Zr2Ni2H6中准确定位氢原子(RMSE<0.02),区分Mn2Fe2As2中的Mn/Fe(Z差仅为1),对10?纳米晶仍保持83.5%匹配率。

自动化精修:7304个结构中,95%的RMSE经Rietveld精修降低一个数量级,但初始RMSE>0.4时精修失效,凸显初始模型精度的重要性。
该研究标志着晶体学解析进入AI驱动的新范式。PXRDGen不仅将传统需数日的解析过程缩短至秒级,更突破了XRD技术的物理局限——通过融合材料基因组数据库的先验知识,实现了超越衍射分辨率限制的结构预测。未来拓展至复杂氧化物和有机材料时,需引入空间群约束和SMILES编码等适配策略。这项由Qi Li、Rui Jiao等学者完成的工作,为材料逆向设计和高通量发现提供了革命性工具。
生物通微信公众号