《Advanced Science》:Automated Extraction of Multicomponent Alloy Data Using Large Language Models for Sustainable Design
编辑推荐:
可持续材料的设计需要以有组织、结构化且自动化的方式获取文献语料库中的材料性能与可持续性数据。尽管大语言模型(LLMs)已被用于从文献中提取材料数据,但其常受到准确性受限或适用范围狭窄的制约。该研究提出了一种基于LLM的高熵(多组元)合金(HEA)文献信息高精度
可持续材料的设计需要以有组织、结构化且自动化的方式获取文献语料库中的材料性能与可持续性数据。尽管大语言模型(LLMs)已被用于从文献中提取材料数据,但其常受到准确性受限或适用范围狭窄的制约。该研究提出了一种基于LLM的高熵(多组元)合金(HEA)文献信息高精度提取流程。该方法构建了两个数据库,其条目数分别为37 711和148 069:其一来源于文本,用于记录合金成分、加工条件、表征方法和材料性能;其二来源于表格,用于记录性能名称、数值及单位。通过提示工程(prompt engineering)与检索增强生成(retrieval-augmented generation, RAG),该流程提升了模型对材料领域的敏感性,并在文本与表格提取任务中分别实现了0.83和0.88的F1值,优于或达到现有方法水平。将该流程应用于10 000余篇文章后,研究人员构建了目前公开可获得的最大规模多组元合金数据库,并揭示了成分以及加工—性能变化趋势。进一步地,该数据库被用于三个应用领域中的可持续性感知材料筛选,即轻量化、软磁材料和耐腐蚀材料,识别出在保持或超过基准性能的同时具有更可持续生产潜力的多组元合金候选材料。所开发的流程还可方便地推广至其他材料类别,从而支持面向可持续材料设计的全面、准确且可用数据库的构建。
该论文发表于《Advanced Science》,围绕“如何从海量非结构化材料文献中自动、准确地提取可用于可持续设计的数据”这一关键问题展开。研究背景在于,可持续材料设计不仅要求材料达到目标服役性能,还要求降低环境负荷、供应链风险与社会经济影响。然而,相关知识虽已在长期实验与计算研究中大量积累,但大多分散于论文正文、表格和图件之中,呈现非结构化、异构化状态,难以直接转化为可机器读取的数据资源,进而限制了数据驱动材料设计、机器学习(ML,机器学习)筛选以及性能—可持续性协同优化工作的开展。既有自动提取方法主要依赖命名实体识别/关系抽取(NER/RE)等特定任务模型或规则驱动流程,虽能识别实体与预定义关系,却难以处理材料科学中高度依赖语境的复杂高阶关系,尤其是性能值与成分、加工、测试条件之间的联动关系。大语言模型(LLMs)为此提供了新的可能,但已有工作仍普遍存在准确率不足、属性范围有限、材料成分标准化不充分以及部署成本与规模化应用受限等问题。因此,研究人员开展本研究,旨在构建一种兼具广泛适用性、较高准确性、成分精确性与上下文丰富性的自动提取流程,以支撑面向可持续性的多组元合金筛选与设计。
在研究设计上,研究人员提出了一个两阶段自动提取框架。第一阶段针对摘要与实验部分段落文本,提取合金体系、标准化成分、加工条件、表征技术和性能名称,形成文本数据库;第二阶段针对论文表格,提取定量性能值、单位以及对应的测试和加工条件,形成数值数据库。该流程的核心在于通过系统提示、领域定义、少样本示例、链式思维(chain-of-thought)提示与RAG动态示例检索相结合,提高LLM对材料术语、表达变体和复杂上下文的解析能力。最终,研究人员从10 829篇可获取全文结构化XML的文献中,构建了分别包含37 711条和148 069条记录的两个数据库,并将其进一步用于轻量化结构材料、软磁材料和耐腐蚀材料三个应用场景中的可持续性筛选。结果表明,该流程不仅在文本和表格提取中达到了较高F1值,而且基于所得数据库可以筛选出在性能和可持续性上同时优于或不劣于工业基准材料的候选多组元合金。这项工作的意义在于,它证明了LLM能够将复杂、分散且高度非结构化的材料文献知识转化为结构化数据库,为后续的人工智能(AI,人工智能)/机器学习辅助材料发现、成分—性能关系学习及可持续材料设计奠定基础。
就主要技术方法而言,研究人员首先基于Web of Science检索“multi-component alloys”与“high entropy alloy”,并利用Elsevier API获取10 829篇文献的结构化XML全文;随后构建QS1与QS2两套LLM查询流程,分别用于段落级文本信息抽取和表格定量数据抽取。方法上结合提示工程、少样本学习、RAG相似示例召回、链式步骤化输出约束,以及后处理标准化。对于QS2,还先由DB1归纳形成354类材料性能受控词表,再通过属性别名/符号扩展与向量检索缩小候选属性范围。最后,研究人员结合规则校验、上下文化LLM标准化与人工核验,对非标准合金命名进行统一处理,并引入基于元素组成的可持续性指标进行下游筛选分析。
在研究结果部分,论文首先给出了“2.1 Overall Workflow”。该部分说明研究人员从约18 000篇相关文献中筛选出可通过Elsevier API访问的10 829篇文章,并将数据提取划分为两条互补路径:QS1负责抽取合金体系名称与成分、表征方法和性能名称,QS2负责抽取定量性能数值及实验条件。该设计使文本中偏语义、概念性的报道与表格中偏定量、标准化的记录得到分工处理,最终分别形成DB1和DB2,为后续成分趋势分析和应用导向筛选提供基础。
“2.2 Query Set 1”部分展示了文本抽取模块的构建与验证。其下“2.2.1 Query Set 1 Prompt Details”表明,QS1的提示结构由系统指令、领域上下文定义、RAG选取的少样本示例和严格格式约束组成,并以链式分步方式引导模型处理材料文献中的成分表达、加工术语和性能表述。研究人员为成分、加工条件、性能和表征方法分别建立了向量数据库,用于从98个专家标注示例中检索与目标段落最相似的前5个示例,以提升领域适应性和提取准确率。该部分还指出,QS1在大规模应用中采用GPT-4o与GPT-4o mini组合,以在精度与成本之间取得平衡。
“2.2.2 Query Set 1 Evaluation”进一步对QS1进行了评估。由于缺乏现成标准基准,研究人员采用综述文章和随机抽取的30篇文章进行验证,并设计了扩展混淆矩阵,以区分真正错误、综述遗漏的新条目以及超出抽取范围的记录。结果显示,QS1在综述数据集上的F1值为0.83,精确率0.80,召回率0.86;在30篇随机文章上的F1值为0.75。误差分析表明,主要瓶颈集中在合金成分解析,尤其是多步替代关系、原子分数分配和符号推理过程中的错误;同时,LLM也能够识别人工综述遗漏但原始文献中确有依据的新合金条目,说明其在辅助专家整理方面具有潜力。
“2.2.3 Query Set 1 Database”介绍了DB1的整体情况。研究人员将QS1应用于全部10 829篇文献后,得到37 711条合金体系记录,其中36 536条可直接用于下游分析。DB1共包含15 998种唯一合金成分。元素频次分析显示,Ni、Fe和Cr是最常见的合金元素,碳化物、硼化物和氧化物则常作为添加组分出现。性能词云与表征方法统计表明,硬度、延展性、强度等力学性能占主导地位,而X射线衍射(XRD,X-ray diffraction)、扫描电子显微镜(SEM,scanning electron microscopy)和透射电子显微镜(TEM,transmission electron microscopy)是最常见的表征手段。该数据库不仅可回答“研究了哪些合金、采用何种工艺、关注哪些性能”之类的问题,还可为后续构建性能受控词表和定量抽取框架提供依据。
“2.3 Query Set 2”则聚焦于表格中的定量信息抽取。在“2.3.1 Query Set 2 Prompt Details”中,研究人员指出,表格中同一性能往往有多种异名、缩写或符号表达,因此首先基于DB1中超过8 000个原始性能描述,通过LLM辅助聚类、算法过滤和人工验证,归纳出354个标准化性能类别,并增设“Others”类别容纳非标准或难归类性能。QS2采用两步LLM调用:先识别表格中可能对应性能名称的单元格,再利用扩展了异名和符号表达的性能向量库进行相似检索,为第二步定量抽取提供缩小后的候选性能集合及其定义、常见单位和测试条件提示。这种改进RAG策略避免了直接从大词表中硬匹配性能名称的问题。
“2.3.2 Query Set 2 Evaluation”说明了QS2的效果。研究人员使用包含约1500条高熵合金力学性能记录的综述文章,以及跨33篇研究论文人工整理的1800条目标记录进行验证。在机械性能综述数据集上,QS2的F1值达到0.96;在包含力学、腐蚀、电学、光学等更广泛属性的数据集上,F1值为0.88,精确率0.98,召回率0.80。随机30篇文章评估所得F1值为0.85。结果表明,QS2具有非常高的精确率,但会漏掉约20%的目标记录,主要原因包括性能描述高度复杂、部分术语超出向量库覆盖范围,以及提示要求模型在不确定时宁可不抽取。其余误差主要来自非常规成分表示、实验条件与性能对应关系错误、单位解析不一致以及CSV格式输出偏差。
“2.3.3 Query Set 2 Database”总结了DB2的构建结果。研究人员从约6 000篇文章的22 397个表格中完成处理,其中14 001个表格产生有效输出,共提取148 069条记录。由于别名、商业牌号和文章内部简称较多,初始仅有约78 000条记录可直接使用;经规则解析、物理合理性验证和上下文化LLM标准化处理后,可用记录提升至102 134条,形成DB2。DB2包含16 381种唯一合金成分,Ti、Cr、Fe、Co、Ni和Al出现最频繁。最常被报道的性能包括屈服强度、硬度、极限抗拉强度、腐蚀电流密度、腐蚀电位、熔点和居里温度(Curie temperature)等。进一步地,研究人员基于Magpie元素特征构建成分描述符,并利用t-SNE(t-distributed stochastic neighbor embedding)降维可视化,展示了硬度、密度、屈服强度以及不同成分家族在成分空间中的分布规律,表明DB2已经能够支撑较大规模的成分—性能关联分析。
“2.4 Sustainable Alloy Design”展示了该数据库的实际应用价值。研究人员采用既有工作提供的18种常见合金元素的9项元素级可持续性指标,涵盖原料价格、供应风险、归一化供应脆弱性、隐含能耗、耗水量、矿石—金属比、人类健康损害、人权压力和劳动权压力,并通过归一化和原子分数加权平均定义合金可持续性指数。在此基础上,将数据库中的性能与可持续性指标耦合,用于三个应用领域的候选材料筛选。
在“2.4.1 Lightweight Functional Materials”中,研究人员以比强度为核心指标,结合密度和屈服强度,从DB2中筛选出262种同时具备这两类数据且可计算可持续性指数的合金,并与AA2195、AA2050、AA5052、AA5083、AA7075、AA7068及Ti–6Al–4V等基准轻质合金比较。结果识别出9种兼具竞争性比强度和较优可持续性的高熵合金候选,主要集中于富Al和富Ti体系,以及Ni–Mn–Cu–Al–Ti–Fe成分空间。该结果说明,数据库能够将文献中的分散性能记录与元素可持续性评价结合起来,形成可追溯的轻量化材料选择图谱。
“2.4.2 Soft Magnetic Materials”部分以高饱和磁化强度和低比能量容量为目标,对143种具有饱和磁化强度、矫顽力和可持续性指数数据的合金进行筛选,并引入Fe–Co、Fe–Si钢、Permalloy 80和FINEMET等典型工业软磁材料作为参照。研究人员识别出11种具有应用潜力的候选合金,若干Al–Co–Cr–Fe–Ni–Si高熵合金位于Permalloy 80与FINEMET之间的性能—可持续性空间,表明其可能在低损耗性能和更可持续生产之间建立平衡。此外,部分候选材料还表现出较高的居里温度,适用于高温软磁场景,体现了数据库支持多指标、场景化筛选的能力。
“2.4.3 Corrosion Resistant Materials”则以腐蚀电流密度为核心指标,研究海洋与氯化物环境下的耐腐蚀材料筛选。由于腐蚀性能高度依赖测试环境,研究人员将分析限制在3.5% NaCl条件下,从而保证不同材料间比较的科学性。最终,共识别出342种具有腐蚀电流密度和可持续性指数数据的合金,其中3种同时表现出更高耐腐蚀性和更优可持续性。两个候选体系在成分上与SS 316L接近,但由于不含Mo而表现出略高的可持续性;另一个近等原子比合金则显示更低的腐蚀电流密度。研究还指出,高Fe含量与腐蚀电流密度升高相关,提示DB2不仅可用于候选材料筛选,也可用于成分—性能统计关联分析。
论文讨论部分强调,当前工作虽然证明了LLM驱动的自动提取能够有效支持材料信息学,但仍存在若干关键限制。首先,当前流程仅覆盖摘要、实验方法和表格,尚未纳入图像、图谱以及更复杂的图件信息,而这些内容正是许多超出范围记录的重要来源。其次,多相高熵合金中的显微组织信息对性能至关重要,但现阶段尚未被充分标准化和结构化表示。再次,合金成分标准化仍是最主要的技术瓶颈之一,尤其在面对非常规符号、别名和多步逻辑表达时更为突出。因此,未来需要在更强LLM、专用代理(agentic frameworks)、领域工具以及更稳健的数据标准化框架方面继续推进,以实现更全面、可扩展且可复用的材料知识抽取体系。
研究结论部分可译为:总之,该研究提出了一种用于从科学文献中自动提取多元素合金数据的框架。该方法结合OpenAI对话式大语言模型GPT-4o与GPT-4o mini,以及面向任务的提示工程,提取了两个互补数据集:一个来源于摘要和实验方法中的文本信息,另一个来源于表格数据,合计覆盖350余种材料性能。所得数据库分别包含37 711条和148 069条记录。为展示数据库的应用价值,研究人员进一步利用所提取数据,在轻量化、软磁和耐腐蚀三个应用领域开展了可持续合金筛选,识别出数十种在性能表现和环境影响降低方面均优于当前工业基准材料的合金成分。为保证可获得性与可重复性,数据集已通过Alloy Tattvasar网站公开,相关源代码、提示模板和少样本示例亦已发布于GitHub。尽管当前工作仍局限于摘要、实验方法和表格,尚未覆盖图件或显微组织信息,但更先进LLM与基于代理的框架为未来扩展提供了明确路径。所提出的提取流程可方便推广至其他材料类别,预期将有力支撑面向可持续材料设计的数据驱动研究。