一种针对大型语言模型的改进自回归评估范式

《ACM Transactions on Intelligent Systems and Technology》:An Improved Autoregressive Evaluation Paradigm for Large Language Models

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  大语言模型评估中自回归指标NDCG的提出及优势验证,解决了基于似然的方法因曝光偏差影响微调模型评估的问题,实验显示其相关性系数提升45%且与GPT-4 Elo排名更接近。

  

摘要

自ChatGPT问世以来,人工智能领域见证了多种聊天风格的大型语言模型(LLMs)的出现。尽管在这一领域取得了显著进展,但评估这些模型仍然是一个重大挑战。人类或GPT-4这样的“预言机”所提供的评估结果常被视为黄金标准,但这些方法既不自动化也不具备可扩展性。最近,一系列基于LLMs的评估模型(开源)被引入,但它们往往存在模型特定的偏见,例如,LLaMA系列的评估模型更倾向于偏好同系列的模型。另一方面,自回归评估指标虽然有可能解决上述问题,但目前仍尚未得到充分探索。其中,基于似然的指标(如困惑度(perplexity)和负对数似然(NLL)被广泛采用,并且在跟踪LLMs的预训练进度方面证明了有效性。然而,由于“暴露偏差”(exposure bias)现象——即在推理过程中模型输出的分布逐渐偏离真实分布——这些指标难以有效评估微调模型的生成能力。为了解决这一关键问题,本文提出了一种新的自回归指标——标准化折扣累积增益(Normalized Discounted Cumulative Gain,NDCG),以改进微调LLMs的评估效果。实验结果表明,NDCG在Spearman相关系数和Kendall’s tau相关系数方面均显著优于基于似然的指标:在常识问答任务中,其性能提升了45%以上,并且在指导式微调模型的评估结果上与GPT-4的Elo排名更为吻合。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号