从过去中学习,规划未来:利用大型语言模型挖掘《儿童疾病档案》中一个世纪以来的儿科研究成果

《Archives of Disease in Childhood》:Learning from the past, structuring the future: using large language models to unlock a century of paediatric research in Archives of Disease in Childhood

【字体: 时间:2025年11月20日 来源:Archives of Disease in Childhood 3.2

编辑推荐:

  本文探讨利用大型语言模型(LLMs)结构化《儿童疾病档案》百年历史文献,验证其准确提取元数据的能力,为提升生物医学索引和检索效率提供新方法。

  

摘要

背景与目标 《儿童疾病档案》(Archives of Disease in Childhood, ADC)百年华诞之际,我们有必要回顾过去一个世纪在儿科领域的研究成果,并思考如何更好地利用这一不断增长的学术资源以服务于未来。虽然该期刊的内容通过PubMed和医学主题词进行索引,但这仅能提供对复杂期刊内容的表面展示,导致其可访问性有限。本文探讨了大型语言模型(LLMs)的潜在应用价值——这些先进的人工智能系统能够理解、总结并生成类似人类的语言,并展示了它们在整理《儿童疾病档案》文章方面的可行性,同时提出了一种改进索引、检索和可发现性的方法。

方法 为进行演示,我们下载了1999年12月《儿童疾病档案》期刊中的五篇文章,并使用封闭部署的LLM(Mistral,版本5.0.3,70亿参数)对这些文章进行了处理。通过结构化提示提取关键元数据,结果与原文进行手动比对并评估准确性,同时记录了任何虚假或错误的输出结果。

结果 LLM的平均准确率为86.9%,与以往的医学研究辅助基准测试结果相当。未发现任何虚假信息。尽管存在一定程度的重复和冗余(可能源于基于数据块的处理方式),但在元数据明确存在的情况下,关键信息仍被准确提取。

结论 《儿童疾病档案》蕴藏着大量尚未得到充分利用的研究成果。本文表明,轻量级的、本地部署的LLM能够在不侵犯知识产权的前提下对期刊内容进行结构化处理。此类方法有望提升访问效率,支持系统评价的自动化,并通过生物医学本体论增强文章的可发现性,为构建一个兼具历史洞察力和现代研究需求的可搜索、语义丰富的学术档案库奠定基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号