Astro-QA:开启大语言模型天文学问答评估新纪元

【字体: 时间:2025年03月19日 来源:Scientific Data 5.8

编辑推荐:

  研究人员构建 Astro-QA 数据集评估 LLMs 天文学问答性能,发现其能力有差异,为相关研究提供基准。

  在当今科技飞速发展的时代,大语言模型(LLMs)如同一颗颗璀璨的新星,在众多领域大放异彩。从日常对话到复杂的文本创作,从知识问答到智能客服,LLMs 凭借其强大的语言理解和生成能力,为人们的生活和工作带来了极大的便利。然而,在天文学这一神秘而浩瀚的领域,LLMs 的表现却一直缺乏全面且精准的评估。
现有的基准数据集虽然数量众多,但大多都没有涉及天文学领域的任务。即便有部分数据集包含少量天文学问题,也存在诸多缺陷。例如,问题往往局限于常识层面,无法真正检验 LLMs 对天文学专业知识的深度理解;评估过程没有充分考虑问题的难度差异,难以给出综合反映模型问答能力的分数;而且,对于答案的获取过程缺乏详细解释,使得用户难以明白模型为何能答对某些问题,却在其他问题上出错。这些问题就像一道道屏障,阻碍了 LLMs 在天文学领域的深入应用和发展。

为了突破这些困境,来自贵州大学计算机科学与技术学院公共大数据国家重点实验室等机构的研究人员展开了一项具有开创性的研究。他们构建了名为 Astro-QA 的数据集,这是首个专门用于评估 LLMs 在天文学领域问答性能的基准数据集。该研究成果发表在《Scientific Data》上。

研究人员在构建 Astro-QA 数据集时,采用了一系列严谨且科学的方法。首先是数据收集,他们从多个渠道广泛收集问题,包括现有的基准数据集、天文学奥林匹克竞赛题目、高校和天文机构的期末考试题、在线百科全书等,还手动构建了部分匹配问题。在数据处理阶段,通过多轮严格的数据校准和修正,确保数据的准确性和可靠性。同时,为每个问题添加详细的答案解释,以便用户深入理解。此外,设计了统一标准化的提示模板,用于向 LLMs 提问,并引入新的评估指标 DGscore,综合考量多种因素来准确评估 LLMs 的性能。

研究结果令人眼前一亮。在对 27 个开源和商业 LLMs 进行测试后,研究人员发现,不同模型在天文学问答任务上的表现存在显著差异。GPT-4o 在所有测试模型中脱颖而出,展现出卓越的综合能力和生成能力。在开源模型中,Qwen1.5-72B 和 Qwen1.5-110B 表现出色,甚至超越了部分商业模型。经过天文学领域微调的 StarWhisper3,相较于其基础模型性能提升明显,这表明使用专业天文数据进行模型微调,能有效提高问答性能。混合专家(MoE)模型如 DeepSeek-V2 也展现出独特的优势,通过整合多领域知识,为科学领域的应用提供了新的解决方案。

从不同类型问题的回答情况来看,在客观题方面,GPT-4o 在各类问题上都表现优异,尤其在多选多选(MMC)问题上得分极高,其在匹配(MT)问题上的准确率也超过 90%。然而,专门的天文学 LLMs,如 AstroLLaMA 系列,除了在判断题(JU)上表现尚可,在其他类型问题上的表现均不如同参数规模的通用 LLMs,这显示出天文学 LLMs 的发展仍有很大的提升空间。在主观题方面,所有 LLMs 的表现都不尽如人意,生成的文本常存在事实错误,且缺乏连贯性和词汇丰富度。

在提示对 LLMs 的影响研究中,研究人员发现,不同模型对提示的敏感度不同。部分模型在有无系统提示的情况下,分数波动较小,表现相对稳定;而部分模型则在使用系统提示后性能有所提升,也有部分模型出现分数下降的情况。

综上所述,Astro-QA 数据集的构建和相关研究成果具有重要意义。它为评估 LLMs 在天文学领域的能力提供了可靠的基准,有助于研究人员清晰地了解当前 LLMs 在天文学问答方面的进展和不足,为未来天文学 LLMs 的研究和发展指明了方向。通过进一步优化模型和改进数据集,有望推动 LLMs 在天文学领域发挥更大的作用,助力天文学研究取得新的突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号