一种用于评估基于大型语言模型和提示策略的自动化文本摘要中事实一致性的框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：A Framework for Evaluating Factual Consistency in Automated Text Summarization with Large Language Models and Prompting Strategies

【字体：大中小】 时间：2026年06月12日 来源：Neural Networks 6.3

编辑推荐：

　　Md Moinul Islam|Mourad Oussalah摘要文本数据的指数级增长加剧了对可靠自动化文本摘要（ATS）系统的需求，这类系统能够在保持事实准确性的同时提取和综合知识。目前用于评估大型语言模型（LLMs）在摘要任务中的框架缺乏对事实一致性的全面评估，尤其是在信息完

Md Moinul Islam|Mourad Oussalah

摘要

文本数据的指数级增长加剧了对可靠自动化文本摘要（ATS）系统的需求，这类系统能够在保持事实准确性的同时提取和综合知识。目前用于评估大型语言模型（LLMs）在摘要任务中的框架缺乏对事实一致性的全面评估，尤其是在信息完整性至关重要的知识工程领域。本文提出了一个全面的评估框架，通过先进的提示策略和多维度评估指标，系统地评估LLMs生成的摘要中的事实一致性。我们的框架整合了五种提示方法，包括零样本（Zero-shot）、少样本（Few-shot）、思维链（Chain-of-Thought, CoT）、结构化思维链（Structured Chain-of-Thought, SCoT）和验证链（Chain-of-Verification, CoVe），并结合了最先进的事实性评估方法（如FActScore、LongDocFACTScore, LDFActs和AlignScore），在涵盖新闻、科学文献和对话领域的八个LLMs和五个不同数据集上进行了测试。结果表明，少样本提示在大多数领域（科学文献除外）都能实现最佳性能，LLMs生成的摘要始终优于人类生成的摘要。我们的研究揭示了完整性和精确性之间的权衡：模型生成的事实数量是人类的2到10倍，同时保持相当或更高的事实准确性。该框架为开发可靠摘要系统的研究人员提供了实用见解，并提供了开源实现，以便进行可重复性验证。

联系信箱：

粤ICP备09063491号

摘要

热点排行