一种针对大型语言模型的改进自回归评估范式

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：An Improved Autoregressive Evaluation Paradigm for Large Language Models

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　大语言模型评估中自回归指标NDCG的提出及优势验证，解决了基于似然的方法因曝光偏差影响微调模型评估的问题，实验显示其相关性系数提升45%且与GPT-4 Elo排名更接近。

摘要

自ChatGPT问世以来，人工智能领域见证了多种聊天风格的大型语言模型（LLMs）的出现。尽管在这一领域取得了显著进展，但评估这些模型仍然是一个重大挑战。人类或GPT-4这样的“预言机”所提供的评估结果常被视为黄金标准，但这些方法既不自动化也不具备可扩展性。最近，一系列基于LLMs的评估模型（开源）被引入，但它们往往存在模型特定的偏见，例如，LLaMA系列的评估模型更倾向于偏好同系列的模型。另一方面，自回归评估指标虽然有可能解决上述问题，但目前仍尚未得到充分探索。其中，基于似然的指标（如困惑度（perplexity）和负对数似然（NLL）被广泛采用，并且在跟踪LLMs的预训练进度方面证明了有效性。然而，由于“暴露偏差”（exposure bias）现象——即在推理过程中模型输出的分布逐渐偏离真实分布——这些指标难以有效评估微调模型的生成能力。为了解决这一关键问题，本文提出了一种新的自回归指标——标准化折扣累积增益（Normalized Discounted Cumulative Gain，NDCG），以改进微调LLMs的评估效果。实验结果表明，NDCG在Spearman相关系数和Kendall’s tau相关系数方面均显著优于基于似然的指标：在常识问答任务中，其性能提升了45%以上，并且在指导式微调模型的评估结果上与GPT-4的Elo排名更为吻合。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号