
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MathOdyssey:基于奥德赛数学数据的大语言模型数学问题解决能力基准测试
【字体: 大 中 小 】 时间:2025年08月09日 来源:Scientific Data 6.9
编辑推荐:
本研究针对大语言模型(LLMs)在复杂数学推理中的局限性,开发了包含387道专家级数学题的MathOdyssey数据集,涵盖高中、大学和奥赛级别题目。通过多阶段专家评审流程构建的该数据集,评估显示GPT-4 o1-preview以65.12%准确率领先,而开源模型Llama-3-70B仅35.92%,揭示了LLMs在高等数学领域的显著能力差距,为AI数学推理研究提供了标准化评估工具。
数学领域一直被视为检验人工智能认知能力的试金石。尽管当前大语言模型(LLMs)在常规数学题上表现优异,但面对奥赛级复杂问题时仍捉襟见肘。更严峻的是,现有基准如GSM8K和MATH可能已被纳入模型训练数据,导致评估失真。这种"数据污染"现象使得学界亟需全新的、专家原创的评估工具,以真实反映LLMs的数学推理极限。
英国利物浦大学计算机科学系联合NetMind.AI等机构的研究团队在《Scientific Data》发表突破性研究,推出MathOdyssey数据集——包含387道严格筛选的数学题,每道题均配备详细解题步骤和元数据标签。研究采用多阶段专家评审机制,由大学教授、奥赛教练等专业人士原创命题,确保题目覆盖代数、几何、数论等核心领域,并按高中、大学、奥赛三级难度分类。技术方法上,团队创新性地采用LaTeX标准化录入、JSON结构化存储,并开发Python评估工具包实现自动化评分,特别针对开放式答案设计基于GPT-4的等价性验证算法。
研究结果部分,三个子标题下的发现令人瞩目:
模型性能分层:GPT-4 o1-preview在奥赛题中取得45.27%的惊人准确率,远超GPT-4 Turbo的10.81%,而开源标杆Llama-3-70B仅8.78%,显示闭源模型在尖端数学领域的显著优势。
难度梯度特征:所有模型在高中级题目表现最佳(GPT-4 Turbo达84.06%),大学级骤降至58.42%,印证数学推理能力随复杂度增加呈指数衰减规律。
题型差异分析:开放式问题占比63.3%构成主要挑战,而选择题正确率普遍高出20%,反映LLMs在自由推导环节存在系统性缺陷。
这项研究的意义不仅在于建立首个抗数据污染的数学评估基准,更揭示了LLMs数学能力的"天花板效应"——即便最先进模型在奥赛题上的表现仍不足50%,突显符号推理仍是AI核心难题。数据集特设的详细解题步骤(如鸽巢原理应用实例)为可解释AI研究提供珍贵素材。值得一提的是,研究团队将全部数据以CC BY-SA 4.0协议开源,包含完整的JSON元数据和LaTeX源码,这种透明化实践为后续研究树立标杆。正如论文指出,MathOdyssey未来可延伸至多模态数学推理评估,或成为衡量AI通用智能的关键指标之一。
生物通微信公众号
知名企业招聘