大型语言模型在材料科学中的知识能力评估及其在PSPP链推理中的应用前景

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advanced Engineering Materials》：What Do Large Language Models Know About Materials?

【字体：大中小】 时间：2025年12月30日 来源：Advanced Engineering Materials 3.3

编辑推荐：

　　本文深入探讨了大型语言模型（LLM）在材料科学与机械工程领域的应用潜力，重点评估了其内在材料知识（如处理-结构-性能-表现（PSPP）链推理能力），并通过元素周期表示例揭示了词汇标记化对材料指纹唯一性及不同开源模型事实性输出准确性的影响，为材料信息学领域提供了关键的模型选型基准。

大型语言模型（LLM）作为当前人工智能领域的重要突破，正逐步渗透到机械工程与材料科学等传统学科。这类基于海量互联网文本训练的模型，其核心能力在于通过语言接口建立关联，尤其适用于材料科学与工程中经典的“处理-结构-性能-表现”（Processing-Structure-Property-Performance, PSPP）链的逐步推理。然而，互联网内容多以非科学信息为主，若要将LLM可靠地应用于工程实践，评估其内在材料知识——即生成准确材料信息的能力——至关重要。

引言：作为材料科学数据源的大型语言模型

当今的LLM旨在生成连贯且上下文相关的序列，其相关性通过训练过程从数据集中确定。尽管训练数据涵盖了互联网的很大部分（如The Pile、Common Crawl），但高质量科学文献的纳入有时存在法律争议，可能导致可信数据的缺失，同时部分数据可能因偏见或错误而产生误导。将LLM纳入工程设计过程的关键，在于确认模型生成材料信息的准确性。本研究通过重新诠释PSPP链为块状流程图，将每个步骤的数据集视为节点，并由模型连接，探讨了LLM作为数据驱动方法中黑盒机器学习模型的替代方案。

LLM在PSPP链中的应用

材料知识在LLM中的定义基于知识图谱等更广泛的概念，并遵循三个基本假设：1）知识与特定材料名称（唯一标识符）相关联，材料由其化学组成和所有加工步骤构成的“材料指纹”定义；2）上下文对生成至关重要，适当的提示（如问答形式）可引导模型输出；3）基础材料知识被视为“永恒”的，尽管这忽略了科学领域的可重复性危机带来的数据可靠性问题。

在PSPP链的各个环节，LLM均可嵌入知识：

•
（A）加工知识：LLM可识别加工步骤及关键参数。例如，针对水凝胶的自由基聚合，模型能列出引发剂、单体、交联剂、溶剂等主要成分。但需警惕类似“披萨加胶水”的幻觉或误述。
•
（B）结构知识：模型能再现内部结构的基本概念（如金属的晶粒度、聚合物的链结构）及其对性能的影响。例如，对比无规共聚物与嵌段共聚物的玻璃化转变行为。
•
（C）性能数据：在合适上下文中，LLM可生成材料性能数值。如询问“钢的弹性模量为”，模型可能返回“200 GPa”。但单位转换和数值准确性需严格验证。
•
（D）表现评估：材料在特定环境下的性能（如智能复合材料中的孔隙开闭性能）需要模型理解物理概念或基于连续介质模型的数值输出。例如，以溶胀比作为水凝胶通道开闭的性能指标。

生成式预训练Transformer模型基础

本研究聚焦仅解码器（decoder-only）的Transformer模型，因其是目前开源LLM的主流架构。文本生成过程包括：提示词切分为词汇表对应的词元（token）、词元映射为向量嵌入、位置编码与因果自注意力层构建上下文嵌入、前馈网络计算隐藏状态，最后通过softmax函数得到词元概率分布，并以温度参数控制采样随机性。材料名称若作为唯一词元存在于词汇表中，其嵌入表示会更专业；若被切分为子词，则依赖注意力机制组合，易受上下文干扰产生幻觉。尽管BERT等编码器模型在嵌入语义相似性上可能更优，但本研究旨在探讨通用模型在工程中的适用性。

化学数据与元素周期表

化学元素作为材料的基本构成单元，其相关知识的真实性验证是基础。研究以纯元素物质的熔点为例，利用mendeleev Python包获取真实数据，评估LLM输出准确性。元素周期表的不同排列形式（如基于稀缺性、地球化学特征等）为多维度知识评估提供了框架。

结果与讨论

化学元素名称的唯一性

词元化对材料指纹的唯一标识至关重要。分析显示，常见材料（如铁、银）的名称即使在小型词汇表中也拥有唯一词元，这与其在非技术语境中的高频使用有关。比较不同模型（如gemma、Llama、Qwen等）的词元分布发现，gemma模型对元素名称的唯一词元覆盖更广，这与其词汇表设计和训练数据相关。为提升PSPP链推理的可靠性，专用LLM应在微调时扩展词汇表，确保材料指纹相关术语有唯一词元，并通过领域数据训练使嵌入表示更精准。

元素周期表中性能预测的准确性

采用特定提示模板（如“Pi是3.14<。冰的熔点（单位开尔文）是273.15 K<。”）进行上下文学习，可规范模型输出的数字格式和单位。对不同规模模型（如1B/2B/3B参数）的测试表明，更大模型通常能更准确地复现数值，但幻觉问题依然存在：例如，模型可能预测氦等极端条件下无熔点的物质的熔点。通过改进提示（如指定“若无值则输出NaN”）可减少错误预测。系统评估所有元素属性，可量化LLM的固有材料知识，为模型选型提供依据。

结论

本研究系统评估了LLM在材料开发与工程设计中的应用潜力。研究证实，模型词元唯一性直接影响材料指纹的嵌入质量，而元素属性预测则揭示了模型规模与准确性之间的关联。尽管小型模型（如30亿参数）已能生成部分正确数据，但幻觉问题要求在未来端到端工程模型中嵌入纠错机制。本研究为材料科学家提供了评估LLM知识可靠性的方法框架，其开源代码为构建材料科学领域的基准测试奠定了基础，助力PSPP链推理过程的稳健实现。在拥抱LLM带来的自动化机遇的同时，审慎评估其替代传统物理模型的可行性，是推动领域发展的关键。

联系信箱：

粤ICP备09063491号

热点排行