大型语言模型(LLMs)在数据到文本生成任务中的全面性能评估以及基于差异权重的训练方法

《ACM Transactions on Intelligent Systems and Technology》:A Comprehensive Performance Evaluation of LLMs for Data-to-Text Generation and Divergence-Weighted Training

【字体: 时间:2026年02月16日 来源:ACM Transactions on Intelligent Systems and Technology

编辑推荐:

  数据到文本生成研究系统评估了12种大语言模型(BART、T5、BLOOM、OPT、Llama 2)在五个数据集上的表现,涵盖可读性、信息量和准确性三个核心指标,提出基于源参考分歧加权的训练策略有效提升模型性能,发现模型大小对可读性和信息量有正向影响,但对准确性的提升有限且存在规模反效应。

  

摘要

摘要

数据到文本的生成(D2T)旨在将半结构化数据(如表格和图表)转换为自然语言文本。得益于大型语言模型(LLMs)的卓越能力,它们已成为 D2T 的基础模型。本文对用于 D2T 的 LLMs 进行了全面评估,重点关注三个关键质量:可读性(流畅性和连贯性)、信息量(内容保留)和准确性(事实准确性)。我们使用六个既定的自动评估指标,对来自五个知名开源系列的十二个 LLMs(BART、T5、BLOOM、OPT 和 Llama 2)在五个广泛使用的 D2T 数据集上的表现进行了评估,并通过人工评估来获得更深入的见解。研究结果表明,模型规模越大,可读性和信息量通常会提高,其中 Llama 2 的整体表现最为出色。然而,模型规模的增加并不总是能提升准确性,有时甚至会降低准确性。人工评估表明,从读者的角度来看,较大模型在可读性、信息量和准确性方面更受青睐,因为自动评估指标对较小的准确性错误更为宽容。通过鲁棒性分析,我们确认这些趋势在不同的微调方法(QLoRA 与 Prefix-Tuning)和解码策略(Beam Search 与 Nucleus Sampling)下仍然稳定。此外,实验还显示,随着源参考差异的增加,性能会一致下降。为了解决这个问题,我们提出了一种基于源参考差异的加权训练方法,该方法根据源参考差异自适应地重新调整训练实例的权重,从而在所有三个关键评估质量上实现了一致的改进。这项全面的研究为 LLM 在 D2T 中的行为提供了实用的见解,并引入了一种有效的训练范式,以提高 D2T 的性能。

AI 摘要

AI 生成的摘要(实验性)

本摘要是使用自动化工具生成的,并非由文章作者撰写或审核。它旨在帮助读者发现研究内容的相关性,并协助来自相关研究领域的读者理解本文。它旨在补充作者提供的摘要,后者仍是文章的官方总结。完整文章是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的摘要版本。

AI 生成的摘要

该摘要由基于已发表文章文本的自动化系统生成。

版本创建于 2026 年 1 月 30 日。

本研究对大型语言模型在数据到文本生成任务中的表现进行了全面评估,涉及将表格和图表等结构化数据转换为自然语言描述。研究评估了来自五个知名系列的十二个模型(包括 BART、T5、BLOOM、OPT 和 Llama 2),这些模型在五个数据集上进行了测试,涵盖了三种主要的数据到文本任务类型。性能通过三个关键质量进行评估:可读性(通过流畅性和连贯性衡量)、信息量(反映内容保留程度)和准确性(表示事实准确性)。

评估使用了六个自动指标,并结合了人工评估,以提供全面的见解。结果表明,模型规模越大,可读性和信息量通常会提高,其中 Llama 2 在这些方面表现最佳。然而,模型规模的增加并不总是能提升准确性,有时甚至会降低准确性。人工评估得出的结论有所不同,较大模型在所有三个质量上得分更高,这表明更好的可读性和连贯性可以弥补自动指标较为严苛地惩罚的轻微事实不一致性问题。

鲁棒性分析证实,这些发现在不同微调方法(如 QLoRA 和 Prefix-Tuning)以及不同的解码策略(如 Beam Search 和 Nucleus Sampling)下仍然稳定。一个关键发现是,当源参考差异增加时,性能会显著下降,这种情况在现实世界场景中很常见,并且无论模型规模如何都会带来相当大的挑战。

为了解决源参考差异问题,研究提出了一种新颖的基于差异加权的训练策略,该方法根据源参考差异的水平自适应地重新调整训练实例的权重。这种方法优先考虑对齐良好的示例,同时减少可能引入噪声或不准确性的高度差异实例的影响。该方法在数学上既作为一种正则化机制,也作为一种加权采样策略得到了证明。实验结果表明,这种方法在多个模型和数据集上都能一致地提高所有三个评估质量。

这些发现为数据到文本应用中的模型选择提供了实用指导。在准确性至关重要的领域(如医疗或安全敏感场景),LLM 系统中的较小模型可能更受欢迎,因为它们倾向于避免类似幻觉的行为。相反,在优先考虑用户可读性和信息量的应用中,较大模型提供了更优秀的语言表达能力。基于差异加权的训练策略为解决现实世界数据到文本场景中不可避免的源参考不一致性问题提供了实用的解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号