基于大语言模型的3D晶体结构可合成性及前驱体精准预测框架CSLLM

【字体: 时间:2025年07月16日 来源:Nature Communications 14.7

编辑推荐:

  本研究针对理论材料向实际应用转化中的关键瓶颈——晶体结构可合成性预测难题,开发了Crystal Synthesis Large Language Models(CSLLM)框架。通过构建包含150,120种材料的平衡数据集和创新性"material string"文本表征方法,研究人员训练出三个专用大语言模型:Synthesizability LLM预测准确率达98.6%,显著优于传统热力学/动力学方法;Method LLM和Precursor LLM对固相合成前驱体的预测成功率超90%。该成果发表于《Nature Communications》,为45,632种理论材料的实验合成提供了可靠指导,极大加速了功能材料的发现进程。

  

在材料科学领域,理论设计与实验合成之间始终横亘着一条难以逾越的鸿沟。尽管高通量计算和机器学习已帮助科学家发现了数百万种具有优异性能的理论材料,但其中绝大多数因合成可行性不明而被束之高阁。传统方法依赖热力学形成能(Ehull)或声子谱分析等指标,但实践中常出现悖论:某些热力学稳定结构难以合成,而许多亚稳态材料却能被成功制备。这种矛盾凸显了现有预测方法的局限性,也阻碍了新型功能材料的实际应用开发。

东南大学的研究团队在《Nature Communications》发表的研究中,创新性地将大语言模型(LLM)引入这一领域。通过构建包含70,120种ICSD实验结构(正样本)和80,000种理论结构(经PU学习筛选的负样本)的平衡数据集,研究人员开发了CSLLM框架。该系统的核心突破在于设计了"material string"文本表征方法,将空间群编号(如221)、晶格常数(如3.897?)、原子符号和Wyckoff位置等信息压缩成102字符的字符串,较传统CIF格式缩减94%信息量。

关键技术包括:1)采用LoRA方法高效微调LLaMA3-8B模型;2)基于31,780组固相/溶液法合成配方训练Method LLM;3)通过反应能计算验证前驱体组合。研究团队特别解决了LLM在材料科学中的"幻觉"问题,十次重复测试显示预测结果差异率<0.06%。

主要研究结果

平衡全面的可合成性预测数据集

通过t-SNE可视化证实数据集覆盖七大晶系和1-7元化合物,原子序数范围1-94。正负样本在CLScore分布上界限分明,98.3%实验结构的CLScore>0.1阈值。

材料文本表征与模型优化

提出的"material string"格式示例:

"221|3.897,3.897,3.897,90.0,90.0,90.0|(Ca-1a[0.0,0.0,0.0])->(Ti-1b[0.5,0.5,0.5])->(O-3c[0.5,0.5,0.5])"。经特征消融分析显示空间群编号对预测贡献度最大。

超越传统方法的性能表现

Synthesizability LLM在包含1512种MP材料的测试集上,准确率(98.6%)显著高于Ehull≥0.1eV/atom(74.1%)和声子频率≥-0.1THz(82.2%)的组合标准。对275原子大胞结构的预测准确率仍保持97.8%,证明其卓越的泛化能力。

合成路径的智能推荐

Method LLM对固相合成方法的分类准确率达97.98%,Precursor LLM对二元/三元化合物前驱体的预测成功率>91%。通过组合优化和反应能计算,系统可自动推荐替代前驱体(如Y2O3→YO2)。

理论材料的性能预测

对105,321种MP结构筛选获得45,632种可合成材料,通过CGTNet图神经网络预测23种性能。发现14,097种带隙1-3eV的潜在半导体,其中多个材料在压电系数(d33达686.5pC/N)等性能上超越已知材料。

这项研究开创性地建立了理论材料与实验合成间的智能桥梁。CSLLM框架不仅解决了传统方法在可合成性预测中的"失准"问题,其材料字符串表征和领域适应微调策略,更为LLM在自然科学中的应用提供了范式。研究者开发的交互式界面(https://github.com/szl666/CSLLM)支持CIF/POSCAR文件直接输入,使得这一突破性技术能够快速服务于全球材料学界。该成果将显著降低新材料研发成本,有望推动能源、信息、生物医学等领域的功能材料开发进入"预测-合成"协同加速的新阶段。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号