
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型(LLMs)在数据到文本生成任务中的全面性能评估以及基于差异权重的训练方法
《ACM Transactions on Intelligent Systems and Technology》:A Comprehensive Performance Evaluation of LLMs for Data-to-Text Generation and Divergence-Weighted Training
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Intelligent Systems and Technology
编辑推荐:
数据到文本生成研究系统评估了12种大语言模型(BART、T5、BLOOM、OPT、Llama 2)在五个数据集上的表现,涵盖可读性、信息量和准确性三个核心指标,提出基于源参考分歧加权的训练策略有效提升模型性能,发现模型大小对可读性和信息量有正向影响,但对准确性的提升有限且存在规模反效应。
本摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助读者发现研究内容的相关性,并协助来自相关研究领域的读者理解本文。它旨在补充作者提供的摘要,后者仍是文章的官方总结。完整文章是权威版本。点击此处了解更多。
点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的摘要版本。
AI 生成的摘要
该摘要由基于已发表文章文本的自动化系统生成。
版本创建于 2026 年 1 月 30 日。
本研究对大型语言模型在数据到文本生成任务中的表现进行了全面评估,涉及将表格和图表等结构化数据转换为自然语言描述。研究评估了来自五个知名系列的十二个模型(包括 BART、T5、BLOOM、OPT 和 Llama 2),这些模型在五个数据集上进行了测试,涵盖了三种主要的数据到文本任务类型。性能通过三个关键质量进行评估:可读性(通过流畅性和连贯性衡量)、信息量(反映内容保留程度)和准确性(表示事实准确性)。
评估使用了六个自动指标,并结合了人工评估,以提供全面的见解。结果表明,模型规模越大,可读性和信息量通常会提高,其中 Llama 2 在这些方面表现最佳。然而,模型规模的增加并不总是能提升准确性,有时甚至会降低准确性。人工评估得出的结论有所不同,较大模型在所有三个质量上得分更高,这表明更好的可读性和连贯性可以弥补自动指标较为严苛地惩罚的轻微事实不一致性问题。
鲁棒性分析证实,这些发现在不同微调方法(如 QLoRA 和 Prefix-Tuning)以及不同的解码策略(如 Beam Search 和 Nucleus Sampling)下仍然稳定。一个关键发现是,当源参考差异增加时,性能会显著下降,这种情况在现实世界场景中很常见,并且无论模型规模如何都会带来相当大的挑战。
为了解决源参考差异问题,研究提出了一种新颖的基于差异加权的训练策略,该方法根据源参考差异的水平自适应地重新调整训练实例的权重。这种方法优先考虑对齐良好的示例,同时减少可能引入噪声或不准确性的高度差异实例的影响。该方法在数学上既作为一种正则化机制,也作为一种加权采样策略得到了证明。实验结果表明,这种方法在多个模型和数据集上都能一致地提高所有三个评估质量。
这些发现为数据到文本应用中的模型选择提供了实用指导。在准确性至关重要的领域(如医疗或安全敏感场景),LLM 系统中的较小模型可能更受欢迎,因为它们倾向于避免类似幻觉的行为。相反,在优先考虑用户可读性和信息量的应用中,较大模型提供了更优秀的语言表达能力。基于差异加权的训练策略为解决现实世界数据到文本场景中不可避免的源参考不一致性问题提供了实用的解决方案。