《Neural Networks》:A Framework for Evaluating Factual Consistency in Automated Text Summarization with Large Language Models and Prompting Strategies
编辑推荐:
Md Moinul Islam|Mourad Oussalah摘要文本数据的指数级增长加剧了对可靠自动化文本摘要(ATS)系统的需求,这类系统能够在保持事实准确性的同时提取和综合知识。目前用于评估大型语言模型(LLMs)在摘要任务中的框架缺乏对事实一致性的全面评估,尤其是在信息完
Md Moinul Islam|Mourad Oussalah
摘要
文本数据的指数级增长加剧了对可靠自动化文本摘要(ATS)系统的需求,这类系统能够在保持事实准确性的同时提取和综合知识。目前用于评估大型语言模型(LLMs)在摘要任务中的框架缺乏对事实一致性的全面评估,尤其是在信息完整性至关重要的知识工程领域。本文提出了一个全面的评估框架,通过先进的提示策略和多维度评估指标,系统地评估LLMs生成的摘要中的事实一致性。我们的框架整合了五种提示方法,包括零样本(Zero-shot)、少样本(Few-shot)、思维链(Chain-of-Thought, CoT)、结构化思维链(Structured Chain-of-Thought, SCoT)和验证链(Chain-of-Verification, CoVe),并结合了最先进的事实性评估方法(如FActScore、LongDocFACTScore, LDFActs和AlignScore),在涵盖新闻、科学文献和对话领域的八个LLMs和五个不同数据集上进行了测试。结果表明,少样本提示在大多数领域(科学文献除外)都能实现最佳性能,LLMs生成的摘要始终优于人类生成的摘要。我们的研究揭示了完整性和精确性之间的权衡:模型生成的事实数量是人类的2到10倍,同时保持相当或更高的事实准确性。该框架为开发可靠摘要系统的研究人员提供了实用见解,并提供了开源实现,以便进行可重复性验证。