基于错误的人类评估对大型语言模型在句子简化任务中的深入评估

《ACM Transactions on Intelligent Systems and Technology》:An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment

【字体: 时间:2025年11月08日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  句法简化评估方法研究针对大语言模型(LLMs)的句法简化能力,提出基于错误的人类注释框架。测试GPT-4、Qwen2.5-72B、Llama-3.2-3B等不同规模LLMs,发现GPT-4错误率较低但存在词汇改写缺陷,现有自动评估指标灵敏度不足。

  

摘要

句子简化是一种将句子改写得更容易阅读和理解的技术,对于帮助有各种阅读困难的人来说非常有帮助。随着先进的大型语言模型(LLMs)的兴起,评估它们在句子简化方面的表现变得至关重要。最近的研究使用了自动指标和人类评估来评估LLMs的简化能力。然而,现有的评估方法是否适合LLMs仍存在疑问。首先,当前自动指标在评估LLMs的简化能力方面的适用性仍然不确定。其次,目前用于句子简化的人类评估方法往往陷入两个极端:要么过于肤浅,无法清晰地了解模型的表现;要么过于详细,使得注释过程变得复杂且容易出错,从而影响评估的可靠性。为了解决这些问题,本研究深入探讨了LLMs的表现,并确保了评估的可靠性。我们设计了一个基于错误的人类注释框架来评估LLMs的简化能力。我们选择了开源和闭源的LLMs,包括GPT-4、Qwen2.5-72B和Llama-3.2-3B。我们认为这些模型代表了大型、中型和小型LLMs的典型代表。结果显示,与当前的最先进模型相比,GPT-4通常生成的简化输出错误较少。然而,LLMs也存在局限性,例如GPT-4在词汇替换方面存在困难。此外,我们使用我们的人类注释对广泛使用的自动指标进行了元评估,发现这些指标在评估高质量简化(尤其是高性能LLMs生成的简化)方面缺乏足够的敏感性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号