一种针对大型语言模型的改进自回归评估范式
《ACM Transactions on Intelligent Systems and Technology》:An Improved Autoregressive Evaluation Paradigm for Large Language Models
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
大语言模型评估中自回归指标NDCG的提出及优势验证,解决了基于似然的方法因曝光偏差影响微调模型评估的问题,实验显示其相关性系数提升45%且与GPT-4 Elo排名更接近。
摘要
自ChatGPT问世以来,人工智能领域见证了多种聊天风格的大型语言模型(LLMs)的出现。尽管在这一领域取得了显著进展,但评估这些模型仍然是一个重大挑战。人类或GPT-4这样的“预言机”所提供的评估结果常被视为黄金标准,但这些方法既不自动化也不具备可扩展性。最近,一系列基于LLMs的评估模型(开源)被引入,但它们往往存在模型特定的偏见,例如,LLaMA系列的评估模型更倾向于偏好同系列的模型。另一方面,自回归评估指标虽然有可能解决上述问题,但目前仍尚未得到充分探索。其中,基于似然的指标(如困惑度(perplexity)和负对数似然(NLL)被广泛采用,并且在跟踪LLMs的预训练进度方面证明了有效性。然而,由于“暴露偏差”(exposure bias)现象——即在推理过程中模型输出的分布逐渐偏离真实分布——这些指标难以有效评估微调模型的生成能力。为了解决这一关键问题,本文提出了一种新的自回归指标——标准化折扣累积增益(Normalized Discounted Cumulative Gain,NDCG),以改进微调LLMs的评估效果。实验结果表明,NDCG在Spearman相关系数和Kendall’s tau相关系数方面均显著优于基于似然的指标:在常识问答任务中,其性能提升了45%以上,并且在指导式微调模型的评估结果上与GPT-4的Elo排名更为吻合。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号