基于计算逻辑图(CLG)的大语言模型数学推理能力增强方法研究

【字体: 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  为解决大语言模型(LLMs)在复杂数学推理中单维度思维链(Chain of Thought)的局限性,研究人员提出计算逻辑图(CLG)框架,通过构建CMLG数据集和两阶段微调策略,将复杂问题分解为多层级计算单元。实验表明,CLG显著提升LLMs在CMLG及6个公开数学数据集上的性能,为复杂逻辑推理提供了高维思维范式。

  

数学推理能力是衡量大语言模型(LLMs)智能水平的重要标尺,但现有方法如思维链(Chain of Thought)在解决复杂数学问题时暴露明显缺陷——单维度的线性推理难以处理多层逻辑关系,导致GPT-4等先进模型常出现推理中断或目标误判。更棘手的是,当前数学数据集如CARP缺乏有效利用已知条件的能力,自动生成方法又难以保证复杂问题的严谨性。这种"模型有潜力但缺训练范式"的矛盾,成为制约LLMs数学能力突破的瓶颈。

为破解这一难题,中国研究人员创新性提出计算逻辑图(Computation Logic Graph, CLG)框架。该研究首先构建了首个标注图式推理逻辑的CMLG数据集,通过GPT-4o迭代标注和人工验证,记录包括失败路径在内的完整推理过程;进而设计两阶段微调策略:第一阶段强化局部单步推理能力,第二阶段提升全局问题分解规划能力。实验证明,经CLG增强的LLMs在CMLG及6个跨领域数学数据集上均取得最优性能,相关成果发表于《Knowledge-Based Systems》。

关键技术包括:1)基于GPT-4o迭代标注构建CMLG数据集;2)设计含数学表达式(Mi
)、给定条件(Gj
)等4类节点的异构有向无环图;3)采用局部→全局的两阶段微调策略;4)在GAOKAO、SAT等7个数据集上进行多维度评估。

【Math word problems datasets】
分析现有数学数据集发现,SVAMP等简单数据集已无法满足需求,而CARP对复杂问题的处理存在缺陷,凸显CLG数据集的必要性。

【CMLG dataset】
通过模拟人类"条件分解→逐步推理"的图式思维,CMLG首次实现复杂问题的细粒度标注,包含M1
→R1
等局部推理单元和全局拓扑结构。

【Computation logic graph (CLG) based fine-tuning】
两阶段训练使LLMs既能精准执行单步计算,又能规划Mi
→Gj
等多路径推理,在代数、数论等任务中准确率提升显著。

【Main results】
在MATH数据集代数分支(1187样本)等测试中,CLG方法使Llama-2等开源模型性能超越原始版本15-20%,证明图式思维对复杂推理的普适增强作用。

该研究突破性地证明:现有LLMs通过CLG训练可激活潜在复杂推理能力。其创新价值在于:1)提出首套数学图式思维训练体系;2)开创"局部精准+全局规划"的双阶段优化范式;3)为多维度推理提供可扩展框架。正如论文指出,CLG揭示"LLMs的数学瓶颈不在基础能力,而在思维范式",这对自然语言处理、自动定理证明等领域具有启示意义。未来可通过融合多解路径标注、动态图构建等技术进一步突破现有局限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号