SIMPOD:面向粉末X射线衍射的机器学习新基准数据库——推动晶体结构解析的革新

【字体: 时间:2025年07月11日 来源:Scientific Data 5.8

编辑推荐:

  针对粉末X射线衍射(PXRD)晶体结构解析中数据集私有化、结构单一的技术瓶颈,Sergio Rincon等研究者开发了公开且结构多样的SIMPOD数据库。该数据集包含467,861个COD晶体结构及其模拟PXRD图谱与径向图像,通过计算机视觉模型实现了空间群预测准确率45.32%(Top 5达82.79%),为材料科学领域AI模型开发提供了重要基准。

  

在材料科学领域,晶体结构解析犹如破解物质的"基因密码",而粉末X射线衍射(PXRD)技术因其样品制备简单成为主流手段。然而,传统PXRD分析面临巨大挑战:三维晶体信息被压缩成一维衍射图谱,犹如将立体书压成单页纸,导致结构解析模糊不清。更棘手的是,现有机器学习研究多依赖私有数据集,如仅含无机物的ICSD或金属有机框架的MOFx-DB,这些数据不仅获取受限,还缺乏结构多样性,严重制约了AI模型的泛化能力。

为解决这一难题,哥伦比亚洛斯安第斯大学(Universidad de los Andes)材料化学与人工智能研究中心的Sergio Rincon团队联合开发了SIMPOD数据库。这项发表于《Scientific Data》的研究,通过整合Crystallography Open Database(COD)中467,861种晶体结构,构建了首个公开的PXRD机器学习基准数据集。研究人员创新性地将一维衍射图谱转化为二维径向图像,使计算机视觉模型能更高效捕捉晶体特征,最终实现空间群预测准确率较传统方法提升近50%,为材料逆向设计开辟了新路径。

研究团队采用三项关键技术:首先基于COD筛选4-256原子的晶体结构,利用Dans Diffraction包模拟CuKα辐射(λ=1.5406 ?)的PXRD图谱;其次通过数学变换将10,824维衍射数据压缩为1,024维后,构建具有中心对称性的径向图像(参数k=5,c=20);最后采用2-fold交叉验证训练包括Swin Transformer V2在内的计算机视觉模型,并对比分析1D衍射图谱与2D图像的预测效能。

数据提取与验证
通过Mercury软件模拟验证,SIMPOD的衍射图谱与标准计算结果高度一致(见图3)。数据集涵盖从矿物到有机化合物的全类别结构,元素周期表中每个元素均有103以上样本,空间群覆盖率达100%。Kullback-Leibler分析显示其原子分布(KLD=6.58×10-4)与COD高度吻合。

模型性能突破
如表2所示,预训练的Swin V2模型在完整圆形径向图像上达到45.32%准确率。值得注意的是,改用1/4圆形图像后性能进一步提升至46.70%(表3),证实图像冗余度可优化。与传统DRF模型(37.48%)相比,深度学习模型相对提升21%。

实际应用测试
尽管在20组实验数据测试中模型表现下降(最佳Top 5准确率35%),但研究者指出这源于模拟数据缺乏背景噪声,反而凸显SIMPOD作为基准数据库的价值——为开发抗干扰算法提供纯净训练场。

这项研究的意义在于三方面突破:其一,SIMPOD首次实现PXRD分析领域开源数据规模与质量的统一,其46万+样本量远超Materials Project等现有资源;其二,创新的径向图像转换方法证明计算机视觉在晶体学中的独特优势,为后续研究提供技术范式;其三,数据集特别关注有机小分子(含H/C/N/O结构占比最高),弥补了传统矿物数据库的局限性。正如作者强调,该成果不仅助力空间群预测等具体任务,更将加速"衍射图谱→晶体结构"的端到端AI模型开发,有望重塑材料发现的研究范式。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号