从过去中学习，规划未来：利用大型语言模型挖掘《儿童疾病档案》中一个世纪以来的儿科研究成果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Archives of Disease in Childhood》：Learning from the past, structuring the future: using large language models to unlock a century of paediatric research in Archives of Disease in Childhood

【字体：大中小】 时间：2025年11月20日 来源：Archives of Disease in Childhood 3.2

编辑推荐：

　　本文探讨利用大型语言模型（LLMs）结构化《儿童疾病档案》百年历史文献，验证其准确提取元数据的能力，为提升生物医学索引和检索效率提供新方法。

摘要

背景与目标 《儿童疾病档案》（Archives of Disease in Childhood, ADC）百年华诞之际，我们有必要回顾过去一个世纪在儿科领域的研究成果，并思考如何更好地利用这一不断增长的学术资源以服务于未来。虽然该期刊的内容通过PubMed和医学主题词进行索引，但这仅能提供对复杂期刊内容的表面展示，导致其可访问性有限。本文探讨了大型语言模型（LLMs）的潜在应用价值——这些先进的人工智能系统能够理解、总结并生成类似人类的语言，并展示了它们在整理《儿童疾病档案》文章方面的可行性，同时提出了一种改进索引、检索和可发现性的方法。

方法为进行演示，我们下载了1999年12月《儿童疾病档案》期刊中的五篇文章，并使用封闭部署的LLM（Mistral，版本5.0.3，70亿参数）对这些文章进行了处理。通过结构化提示提取关键元数据，结果与原文进行手动比对并评估准确性，同时记录了任何虚假或错误的输出结果。

结果 LLM的平均准确率为86.9%，与以往的医学研究辅助基准测试结果相当。未发现任何虚假信息。尽管存在一定程度的重复和冗余（可能源于基于数据块的处理方式），但在元数据明确存在的情况下，关键信息仍被准确提取。

结论《儿童疾病档案》蕴藏着大量尚未得到充分利用的研究成果。本文表明，轻量级的、本地部署的LLM能够在不侵犯知识产权的前提下对期刊内容进行结构化处理。此类方法有望提升访问效率，支持系统评价的自动化，并通过生物医学本体论增强文章的可发现性，为构建一个兼具历史洞察力和现代研究需求的可搜索、语义丰富的学术档案库奠定基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号