一种用于评估基于大型语言模型和提示策略的自动化文本摘要中事实一致性的框架

《Neural Networks》:A Framework for Evaluating Factual Consistency in Automated Text Summarization with Large Language Models and Prompting Strategies

【字体: 时间:2026年06月12日 来源:Neural Networks 6.3

编辑推荐:

  Md Moinul Islam|Mourad Oussalah摘要文本数据的指数级增长加剧了对可靠自动化文本摘要(ATS)系统的需求,这类系统能够在保持事实准确性的同时提取和综合知识。目前用于评估大型语言模型(LLMs)在摘要任务中的框架缺乏对事实一致性的全面评估,尤其是在信息完

  
Md Moinul Islam|Mourad Oussalah

摘要

文本数据的指数级增长加剧了对可靠自动化文本摘要(ATS)系统的需求,这类系统能够在保持事实准确性的同时提取和综合知识。目前用于评估大型语言模型(LLMs)在摘要任务中的框架缺乏对事实一致性的全面评估,尤其是在信息完整性至关重要的知识工程领域。本文提出了一个全面的评估框架,通过先进的提示策略和多维度评估指标,系统地评估LLMs生成的摘要中的事实一致性。我们的框架整合了五种提示方法,包括零样本(Zero-shot)、少样本(Few-shot)、思维链(Chain-of-Thought, CoT)、结构化思维链(Structured Chain-of-Thought, SCoT)和验证链(Chain-of-Verification, CoVe),并结合了最先进的事实性评估方法(如FActScore、LongDocFACTScore, LDFActs和AlignScore),在涵盖新闻、科学文献和对话领域的八个LLMs和五个不同数据集上进行了测试。结果表明,少样本提示在大多数领域(科学文献除外)都能实现最佳性能,LLMs生成的摘要始终优于人类生成的摘要。我们的研究揭示了完整性和精确性之间的权衡:模型生成的事实数量是人类的2到10倍,同时保持相当或更高的事实准确性。该框架为开发可靠摘要系统的研究人员提供了实用见解,并提供了开源实现,以便进行可重复性验证。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号