
-
生物通官微
陪你抓住生命科技
跳动的脉搏
从过去中学习,规划未来:利用大型语言模型挖掘《儿童疾病档案》中一个世纪以来的儿科研究成果
《Archives of Disease in Childhood》:Learning from the past, structuring the future: using large language models to unlock a century of paediatric research in Archives of Disease in Childhood
【字体: 大 中 小 】 时间:2025年11月20日 来源:Archives of Disease in Childhood 3.2
编辑推荐:
本文探讨利用大型语言模型(LLMs)结构化《儿童疾病档案》百年历史文献,验证其准确提取元数据的能力,为提升生物医学索引和检索效率提供新方法。
背景与目标 《儿童疾病档案》(Archives of Disease in Childhood, ADC)百年华诞之际,我们有必要回顾过去一个世纪在儿科领域的研究成果,并思考如何更好地利用这一不断增长的学术资源以服务于未来。虽然该期刊的内容通过PubMed和医学主题词进行索引,但这仅能提供对复杂期刊内容的表面展示,导致其可访问性有限。本文探讨了大型语言模型(LLMs)的潜在应用价值——这些先进的人工智能系统能够理解、总结并生成类似人类的语言,并展示了它们在整理《儿童疾病档案》文章方面的可行性,同时提出了一种改进索引、检索和可发现性的方法。
方法 为进行演示,我们下载了1999年12月《儿童疾病档案》期刊中的五篇文章,并使用封闭部署的LLM(Mistral,版本5.0.3,70亿参数)对这些文章进行了处理。通过结构化提示提取关键元数据,结果与原文进行手动比对并评估准确性,同时记录了任何虚假或错误的输出结果。
结果 LLM的平均准确率为86.9%,与以往的医学研究辅助基准测试结果相当。未发现任何虚假信息。尽管存在一定程度的重复和冗余(可能源于基于数据块的处理方式),但在元数据明确存在的情况下,关键信息仍被准确提取。
结论 《儿童疾病档案》蕴藏着大量尚未得到充分利用的研究成果。本文表明,轻量级的、本地部署的LLM能够在不侵犯知识产权的前提下对期刊内容进行结构化处理。此类方法有望提升访问效率,支持系统评价的自动化,并通过生物医学本体论增强文章的可发现性,为构建一个兼具历史洞察力和现代研究需求的可搜索、语义丰富的学术档案库奠定基础。
生物通微信公众号
知名企业招聘