AlchemBERT:轻量化语言模型在材料信息学中的突破性应用——自然语言描述提升材料性能预测准确率达40.3%

【字体: 时间:2025年07月25日 来源:Cell Reports Physical Science 7.9

编辑推荐:

  本研究针对材料性能预测中传统模型依赖复杂特征工程的问题,开发了基于BERT架构的轻量化模型AlchemBERT。通过将晶体结构信息(CIF)和化学式转化为自然语言(NL)描述,在Matbench和Matbench-Discovery基准测试中,NL输入使平均绝对误差(MAE)降低40.3%,性能媲美1750亿参数的GPT模型,为材料发现提供了高效计算工具。

  

在材料科学领域,准确预测材料性能始终是加速新材料开发的关键瓶颈。传统方法依赖复杂的特征工程和计算密集型模拟,而新兴的生成式大模型(GPT)虽展现出潜力,但其庞大的参数量(1750亿)带来高昂计算成本。更棘手的是,晶体结构如何有效编码输入模型一直缺乏普适方案——国际晶体学联合会开发的CIF格式虽被广泛采用,但其机械化的数据表达是否最适合机器学习模型仍存疑。

北京信息科技大学计算机学院与中科院煤化所的研究团队在《Cell Reports Physical Science》发表创新研究,开发出仅1.1亿参数的AlchemBERT模型。该研究突破性地证明:将晶体结构转化为包含空间群、Wyckoff位置等专业术语的自然语言描述,能使轻量化模型的预测准确率超越许多传统模型,在13项Matbench任务中12项表现优于CIF输入,平均绝对误差降低40.3%。尤为重要的是,这种110M参数的"小模型"竟能与1750亿参数的GPT-3在材料组成预测任务中平分秋色。

关键技术包括:1) 设计CIF与自然语言(NL)的双向转换算法,保留空间群(如P4/nmm)、晶胞参数(如a=4.10?)等关键特征;2) 采用SHAP值分析不同输入标记对预测的贡献度;3) 在Matbench的5折交叉验证框架下,系统比较CIF、原始化学式与NL输入的预测性能;4) 通过截断实验验证模型对长序列的鲁棒性。

研究结果显示:在结构描述方面,NL输入在Matbench的"perovskites"任务中显著优于仅依赖组成信息的CrabNet模型,SHAP分析揭示模型能有效识别Wyckoff位置(如2c位点)和局部配位环境等结构特征。对于组成任务,将"Fe0.858C0.0191"等复杂合金组分转化为"85.8%铁(Fe)"的自然表述后,预测误差降低20.2%。在Matbench-Discovery的新材料稳定性预测中,NL输入的F1分数(0.421)接近专业材料模型BOWSR,且显著优于随机基线(Dummy F1=0.185)。

通过对比CIF与NL的标记重要性分布,研究发现:CIF更依赖晶胞体积等全局参数,而NL能突出原子间距(如Pt(2.26? away))和位点对称性('4mm')等局部结构特征。这种差异解释了为何NL描述在多数任务中表现更优——其表述方式更贴近BERT预训练时的语言模式。值得注意的是,在包含10万样本的大数据集上,AlchemBERT甚至超越部分图神经网络(GNN)的表现,证实语言模型能有效捕捉材料的结构-性能关系。

该研究确立了轻量化语言模型在材料信息学中的应用范式,证明精心设计的自然语言描述可替代传统特征工程。这种方法的优势在于:1) 能灵活表达缺陷和非晶结构等复杂体系;2) 支持通过文本变异实现数据增强;3) 降低对量子力学计算的依赖。未来通过开发材料专用分词器(如改进"Rh"等元素的标记化)和领域自适应预训练,有望进一步释放语言模型在材料发现中的潜力。这项工作为材料科学家提供了新思路——或许未来只需用专业语言描述材料特征,就能获得不亚于专业模型的预测结果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号