用于PubMed摘要提取的大型语言模型评估

《ACM Transactions on Computing for Healthcare》:Large Language Models Evaluation for PubMed Extractive Summarisation

【字体: 时间:2025年11月08日 来源:ACM Transactions on Computing for Healthcare

编辑推荐:

  生物医学领域 eighteen 个预训练语言模型在三个规模数据集上的 extractive 总结任务评估,比较通用模型与生物医学专用模型在 ROUGE、BERTScore 等指标表现,发现生物医学模型召回率高生成长摘要,通用模型精度高且摘要更短。

  

摘要

随着可用的生物医学文献量不断增加,收集和整合所有必要信息变得越来越困难。此外,这一特定领域的任务要求生成的文本和概念具有高度的可靠性。预训练的大型语言模型最近取得了令人鼓舞的结果。鉴于生物医学文本摘要的特定要求,我们的评估重点关注提取模型,并优先考虑生成文本的准确性。在本文中,我们使用包含33,000篇、5,000篇和470,000篇PubMed文章的单一数据集和两个多文档数据集,评估了18个通用领域和生物医学预训练语言模型在生物医学提取摘要任务中的表现。我们采用了几种常见的评估指标进行比较,包括ROUGE-1、ROUGE-2、ROUGE-L、BERTScore、BLEU和METEOR。本研究的主要贡献在于提供了详细的性能分析,突出了通用领域模型与生物医学模型之间的差异,并确定了影响生物医学领域内提取摘要任务模型性能的关键因素。实验结果表明,生物医学模型往往具有更高的召回率,而通用领域模型则具有更高的精确度;这对应于生物医学模型生成的摘要更具表现力,而通用领域模型生成的摘要则更简洁。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号