基于ChemDataExtractor与Snowball算法自动构建居里-奈尔温度数据集推动磁性材料设计
《Scientific Data》:A dataset of Curie and Néel temperatures auto-generated with ChemDataExtractor and the Snowball algorithm
【字体:
大
中
小
】
时间:2025年12月14日
来源:Scientific Data 6.9
编辑推荐:
本研究针对磁性材料设计中实验数据匮乏的问题,开发了基于ChemDataExtractor 2.2.2和Snowball v2算法的自动化数据提取流程,从108,181篇科学文献中提取出56,037条居里温度(Tc)和奈尔温度(TN)记录。该数据集精度达72%,召回率为61%,为磁性材料的机器学习预测和分析提供了重要数据支撑,显著加速了新材料研发进程。
在材料科学领域,传统的"试错法"材料设计方法已无法满足新材料的快速开发需求。随着材料基因组计划(Materials Genome Initiative)的推进,数据驱动的方法正逐步成为材料发现的主流途径。然而,实验验证的大规模领域专用计算数据集仍然匮乏,这主要是由于相关数据分散在众多出版物的海量科学文献中,难以有效整合。
磁性材料作为现代科技的重要基础,其居里温度(Curie temperature)和奈尔温度(Néel temperature)是决定材料磁性的关键参数。这些相变温度指标对于设计新型磁性材料至关重要,但手工从文献中提取这些数据既耗时又容易出错。为解决这一难题,剑桥大学的研究团队开发了全新的自动化数据提取方法。
该研究发表于《Scientific Data》,研究人员利用化学信息提取工具包ChemDataExtractor 2.2.2结合Snowball v2算法,构建了首个大规模居里-奈尔温度自动生成数据集。这一创新方法实现了从科学文献中高效提取材料特性关系的能力,为磁性材料的研究和设计提供了宝贵资源。
研究方法主要包括三个关键技术环节:首先通过网络爬虫从Elsevier和英国皇家化学学会(RSC)出版商获取108,181篇相关文献建立语料库;然后采用两种解析器进行数据提取——基于规则的传统ChemDataExtractor解析器和基于机器学习的Snowball v2解析器;最后通过数据清洗和后处理流程确保数据质量。其中,Snowball v2作为半监督机器学习算法,相比传统方法具有更高的自动化程度和更好的性能表现。
数据提取过程中,ChemDataExtractor采用了专门的自然语言处理流程,包括词元化、词聚类、词性标注、化学命名实体识别(CNER)和短语解析五个关键阶段。特别是CNER组件集成了基于BERT架构的语言模型,使用在科学文献上预训练的SciBERT模型,显著提升了化学实体识别的准确性。
研究最终生成了包含56,037条记录的数据集,每条记录包含原始值、标准化值、单位、置信度等完整信息。数据集以JSON和CSV格式公开,便于研究人员使用。为评估数据质量,研究团队随机选取230篇论文进行人工验证,结果显示Snowball v2解析器的精度达到72%,比传统解析器高出11%,但召回率为61%,较传统解析器低14%。
与传统方法相比,Snowball v2解析器最大的优势在于其"即插即用"的特性。传统解析器需要数周时间进行手动优化和规则调整,而Snowball v2作为预训练的通用解析器,仅需几分钟即可完成设置。这种高效率使得研究人员能够快速构建专业领域的数据集,大大降低了数据提取的技术门槛。
与2018年Court和Cole的研究相比,本数据集在规模和质量上均有显著提升。数据集记录数量从39,822条增加到56,037条,涵盖的独特化合物从17,097种增加到18,819种。虽然精度相近(72% vs 73%),但召回率从56%提高到61%,表明新方法在数据覆盖范围上有所改善。
该研究的成功实施标志着材料信息学领域的重要进展。首先,它证明了自动化数据提取工具在构建专业领域数据集方面的可行性和有效性,为其他材料特性的数据提取提供了可借鉴的范例。其次,生成的高质量数据集为磁性材料的机器学习和数据驱动研究奠定了坚实基础,有望显著缩短新材料开发的"分子到市场"时间框架。
此外,该方法学的普适性值得关注。虽然本研究聚焦于磁性材料的居里-奈尔温度提取,但类似的技术路线可以应用于其他材料特性的数据提取,如带隙能量、折射率、热电性能等。这种可扩展性为全面构建材料特性数据库提供了技术保障。
研究的创新性还体现在其完整的技术生态构建上。从数据采集、解析算法到质量评估,研究团队建立了一套端到端的自动化工作流程,并结合了CDEDatabase和e2e_workflow等自定义Python包,确保了数据处理的高效性和可靠性。
本研究成功开发了基于ChemDataExtractor和Snowball v2算法的自动化数据提取流程,构建了目前规模最大的居里-奈尔温度数据集。该数据集不仅为磁性材料研究提供了宝贵资源,也展示了自然语言处理技术在材料科学数据挖掘中的巨大潜力。
随着人工智能技术的不断发展,自动化数据提取方法将在材料发现中发挥越来越重要的作用。未来,类似的技术可以进一步扩展到更多材料特性领域,构建更加全面的材料信息学基础设施,最终实现材料设计的智能化和自动化,推动新材料研发进入新的发展阶段。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号