基于大语言模型的磁性材料数据库NEMAD构建与高性能材料发现研究

《Nature Communications》:The northeast materials database for magnetic materials

【字体: 时间:2025年10月25日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对磁性材料发现中缺乏准确、全面数据库的瓶颈,开发了基于大语言模型(LLMs)的自动化数据提取流程,构建了包含67,573个条目的东北材料数据库(NEMAD)。研究人员利用该数据库训练机器学习模型,实现了90%准确率的磁相分类(铁磁FM/反铁磁AFM/非磁NM)和0.87决定系数的居里温度预测。该工作为加速高性能磁性材料发现提供了新范式,相关成果发表于《Nature Communications》。

  
磁性材料是现代科技不可或缺的基石,从数据存储设备到可再生能源技术,从量子计算到消费电子,其应用遍及各个关键领域。然而,当前磁性材料研究面临双重挑战:大多数高性能磁性材料含有稀土元素且工作温度范围有限,而传统的材料发现方法又高度依赖耗时费力的试错实验。尽管密度泛函理论(DFT)等计算方法在一定程度上加速了材料探索,但对磁性材料强关联电子体系的描述仍存在精度局限,且计算成本高昂难以应用于大体系。
数据驱动方法为材料发现带来了新机遇,但其效果严重依赖于高质量数据库的规模与完整性。现有磁性材料数据库如MAGDATA仅包含约2000个手工整理的条目,而早期自动化构建的数据库又存在特征单一、提取精度不足等问题。特别是缺乏晶体结构、磁各向异性等关键特征,极大限制了机器学习模型在磁性材料设计中的潜力。
针对这一瓶颈,新罕布什尔大学的研究团队在《Nature Communications》发表了创新性研究成果。他们开发了一套基于大语言模型(LLMs)的自动化工作流程,从科学文献中提取并构建了包含67,573个条目的综合性磁性材料数据库——东北材料数据库(NEMAD)。该数据库不仅包含化学组成和相变温度,还整合了晶体结构、空间群对称性以及矫顽力、磁化强度等磁性能参数,为数据驱动的磁性材料研究提供了丰富资源。
研究团队采用多模态数据处理策略,针对不同来源的文献设计了差异化提取方案。对于通过期刊API获取的XML格式文献,同时使用文本解析器和表格解析器;标准PDF文档通过PDF解析器转换为markdown文本;而对扫描版PDF和历史手册,则利用Google Gemini的光学字符识别(OCR)能力进行精准提取。所有提取内容最终通过GPT-4o模型在结构化提示词引导下转化为统一JSON格式。
特征工程是本研究的关键环节。团队从化学式中构建了84维元素比例向量,并计算了平均原子序数、L2化学计量范数、熵等特征。对于结构信息,采用独热编码(one-hot encoding)处理晶体系统,基于目标变量平均值进行标签编码处理空间群。这些特征有效捕获了材料组成与性能间的复杂关系。
在模型构建方面,研究人员训练了随机森林(RF)分类器和XGBoost分类器用于磁相分类,两者均达到约90%的准确率。特别值得一提的是,该模型实现了NM/FM/AFM的一步分类,而非文献中常见的两阶段分类流程。特征重要性分析显示,平均原子量、平均原子磁矩、高居里温度元素比例等是决定性特征。
对于居里温度预测,团队比较了随机森林回归、XGBoost和集成神经网络(ENN)在原始数据集和平衡数据集上的表现。通过分层欠采样技术解决数据分布不均问题后,XGBoost模型在平衡数据集上取得最佳性能(R2=0.87,MAE=56K)。奈尔温度预测中,XGBoost同样表现优异(R2=0.83,MAE=38K)。特征重要性分析表明,铁原子比例、氧元素含量等与超交换作用机制相关的特征贡献显著,说明模型学习了物理意义明确的规律。
将训练好的模型应用于Materials Project数据库筛选,成功预测出25个居里温度高于500K的铁磁候选材料和13个奈尔温度超过100K的反铁磁材料,其中7个已有实验报道验证了预测结果。这一筛选能力展示了该平台在加速磁性材料发现方面的实际应用价值。
关键技术方法概述:
研究通过大语言模型(GPT-4o、Gemini)构建多源文献处理流程,结合特征工程生成化学组成与结构特征。采用随机森林、XGBoost和集成神经网络等机器学习算法,基于分层抽样和交叉验证训练分类与回归模型。利用Materials Project和DFT验证的Heusler合金数据集作为外部验证来源。
数据库规模与质量验证
NEMAD数据库共包含67,573个磁性材料条目,每个条目涵盖15个特征,包括化学组成、相变温度、晶体结构参数和磁性能参数。质量验证显示,随机抽样的5,015条记录经大型语言模型独立评估,中位准确率达94%。数据库元素覆盖广泛,包含84种不同元素,其中铁(Fe)、钴(Co)、镍(Ni)等磁性元素出现频率最高,同时包含大量无稀土元素材料,为开发稀土永磁替代品提供了可能。
磁性材料分类模型性能
基于NEMAD数据库训练的随机森林分类器在测试集上达到90%的准确率,XGBoost分类器表现相当(准确率91%)。相比文献中需要两步分类的传统方法,该模型实现了NM/FM/AFM的单步分类。反铁磁(AFM)类别因样本量较少而表现略逊,反映了数据平衡对模型性能的重要性。
相变温度预测精度
居里温度预测中,XGBoost模型在平衡数据集上表现最优(R2=0.87,MAE=56K),较原始数据集预测精度提升4%。奈尔温度预测最佳结果为XGBoost模型所取得(R2=0.83,MAE=38K)。误差分析表明,高温区域预测偏差较大与训练样本不足有关,分层抽样策略有效改善了模型在高温区的表现。
高通量材料筛选应用
将训练模型应用于Materials Project数据库和DFT验证的Heusler合金数据集,筛选出38个高性能候选材料,包括25个预测居里温度超过500K的铁磁材料和13个预测奈尔温度高于100K的反铁磁材料。其中7个材料的预测值已获文献实验验证,其余31个为尚未实验报道的新候选材料。
研究结论与展望
该研究成功构建了目前最全面的实验基磁性材料数据库NEMAD,并证明了LLMs与机器学习结合在材料发现中的巨大潜力。方法学的普适性使其可扩展至超导、热电、光伏等其他材料体系。未来通过增加Springer等出版社文献覆盖,有望进一步扩大数据库规模并提升模型泛化能力。此外,数据库中包含的结构信息为图神经网络等更复杂模型的应用奠定了基础,将推动磁性材料研究进入新范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号