基于错误的人类评估对大型语言模型在句子简化任务中的深入评估
《ACM Transactions on Intelligent Systems and Technology》:An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
句法简化评估方法研究针对大语言模型(LLMs)的句法简化能力,提出基于错误的人类注释框架。测试GPT-4、Qwen2.5-72B、Llama-3.2-3B等不同规模LLMs,发现GPT-4错误率较低但存在词汇改写缺陷,现有自动评估指标灵敏度不足。
摘要
句子简化是一种将句子改写得更容易阅读和理解的技术,对于帮助有各种阅读困难的人来说非常有帮助。随着先进的大型语言模型(LLMs)的兴起,评估它们在句子简化方面的表现变得至关重要。最近的研究使用了自动指标和人类评估来评估LLMs的简化能力。然而,现有的评估方法是否适合LLMs仍存在疑问。首先,当前自动指标在评估LLMs的简化能力方面的适用性仍然不确定。其次,目前用于句子简化的人类评估方法往往陷入两个极端:要么过于肤浅,无法清晰地了解模型的表现;要么过于详细,使得注释过程变得复杂且容易出错,从而影响评估的可靠性。为了解决这些问题,本研究深入探讨了LLMs的表现,并确保了评估的可靠性。我们设计了一个基于错误的人类注释框架来评估LLMs的简化能力。我们选择了开源和闭源的LLMs,包括GPT-4、Qwen2.5-72B和Llama-3.2-3B。我们认为这些模型代表了大型、中型和小型LLMs的典型代表。结果显示,与当前的最先进模型相比,GPT-4通常生成的简化输出错误较少。然而,LLMs也存在局限性,例如GPT-4在词汇替换方面存在困难。此外,我们使用我们的人类注释对广泛使用的自动指标进行了元评估,发现这些指标在评估高质量简化(尤其是高性能LLMs生成的简化)方面缺乏足够的敏感性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号