
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PubMed知识图谱2.0:连接生物医学论文、专利与临床试验的多维知识网络构建与应用
【字体: 大 中 小 】 时间:2025年06月18日 来源:Scientific Data 5.8
编辑推荐:
本研究针对生物医学领域论文、专利和临床试验数据分散、关联性差的问题,构建了包含3600万论文、130万专利和48万临床试验的PubMed知识图谱PKG 2.0。通过4.82亿生物医学实体链接、1900万引用关系和700万项目链接,实现了跨文献类型的细粒度知识整合。该数据集在作者消歧和生物实体识别等关键任务中表现优异,为生物医学研究、文献计量学和知识挖掘提供了重要资源。
在数字化科研时代,生物医学领域面临着"信息孤岛"的严峻挑战。学术论文、专利和临床试验作为知识传播的三大载体,各自承载着理论创新、技术转化和临床验证的关键信息,却因存储分散、格式各异而难以形成系统性关联。这种碎片化状态严重阻碍了科研成果从实验室到临床应用的转化效率,也使得研究者难以全面把握特定领域的发展脉络。
中山大学信息管理学院联合德克萨斯大学奥斯汀分校等机构的研究团队,在《Scientific Data》发表了突破性研究成果——PubMed知识图谱2.0(PKG 2.0)。这项研究通过整合PubMed论文、USPTO专利和ClinicalTrials.gov数据,构建了包含36,551,113篇论文、1,344,469项专利和480,795个临床试验的超级知识网络。研究团队创新性地采用生物医学实体链接、多源引用集成和NIH项目关联三种方式,建立了4.82亿个生物实体关联、1900万次文献引用和700万条项目链接,形成了迄今为止最完整的生物医学知识图谱体系。
关键技术方法包括:1)基于BERN2工具的生物医学命名实体识别(NER)与标准化(NEN),提取基因、疾病、药物等9类实体;2)整合Authority和Semantic Scholar数据的作者消歧算法;3)融合PubMed原生引用与NIH开放引文集(NIH-OCC)的多源引文验证系统;4)通过iBKH数据集标注生物实体间6类相互作用关系。
研究结果方面:
生物医学实体提取与关联
采用多任务学习模型BERN2,从文献中识别出9类生物医学实体,包括101,605,033个疾病实体和89,639,755个药物实体。通过iBKH数据集映射疾病-药物、基因-基因等6类关系,构建了357,686个标准化生物实体的关联网络。
跨文献类型引用网络
整合形成7.74亿条论文互引关系,验证了25,597,962条专利-论文引用链接的准确性(高置信度数据精确度达99%)。特别建立了96,7719条论文-临床试验引用关联,覆盖98.99%的SciSciNet已知链接。
作者与机构消歧
结合深度学习模型,实现了26,217,594位作者的消歧(F1-score 96.24%),并利用OpenAlex方案对69,457家研究机构进行标准化,精确度达96%。
项目知识关联
通过NIH Exporter关联2,023,148个资助项目与产出文献,验证显示论文-项目链接准确率达99%,为追踪科研资助成效提供了可靠路径。
这项研究的创新性体现在三个方面:首次实现生物医学多类型文献的实体级关联,突破性地整合了专利与临床试验的细粒度知识,并建立了可扩展的动态更新机制。PKG 2.0不仅解决了传统单类型知识图谱(如CTKG)的局限性,其构建方法也为其他学科领域的知识整合提供了范式。
在COVID-19疫苗案例中,研究团队通过PKG 2.0成功追踪了BioNTech SE相关临床试验(NCT04368728)、《Nature》论文(PMID 32785213)和专利(US11547673)之间的知识流动路径,证实了该平台在揭示"基础研究-临床转化-商业应用"全链条创新过程中的独特价值。未来,随着年度更新机制的完善,这一知识基础设施将持续推动生物医学研究的范式变革,加速科学发现向实际应用的转化。
生物通微信公众号
知名企业招聘