基于错误的人类评估对大型语言模型在句子简化任务中的深入评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　句法简化评估方法研究针对大语言模型（LLMs）的句法简化能力，提出基于错误的人类注释框架。测试GPT-4、Qwen2.5-72B、Llama-3.2-3B等不同规模LLMs，发现GPT-4错误率较低但存在词汇改写缺陷，现有自动评估指标灵敏度不足。

摘要

句子简化是一种将句子改写得更容易阅读和理解的技术，对于帮助有各种阅读困难的人来说非常有帮助。随着先进的大型语言模型（LLMs）的兴起，评估它们在句子简化方面的表现变得至关重要。最近的研究使用了自动指标和人类评估来评估LLMs的简化能力。然而，现有的评估方法是否适合LLMs仍存在疑问。首先，当前自动指标在评估LLMs的简化能力方面的适用性仍然不确定。其次，目前用于句子简化的人类评估方法往往陷入两个极端：要么过于肤浅，无法清晰地了解模型的表现；要么过于详细，使得注释过程变得复杂且容易出错，从而影响评估的可靠性。为了解决这些问题，本研究深入探讨了LLMs的表现，并确保了评估的可靠性。我们设计了一个基于错误的人类注释框架来评估LLMs的简化能力。我们选择了开源和闭源的LLMs，包括GPT-4、Qwen2.5-72B和Llama-3.2-3B。我们认为这些模型代表了大型、中型和小型LLMs的典型代表。结果显示，与当前的最先进模型相比，GPT-4通常生成的简化输出错误较少。然而，LLMs也存在局限性，例如GPT-4在词汇替换方面存在困难。此外，我们使用我们的人类注释对广泛使用的自动指标进行了元评估，发现这些指标在评估高质量简化（尤其是高性能LLMs生成的简化）方面缺乏足够的敏感性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号