基于知识图谱与少样本学习的罕见遗传病表型驱动诊断系统SHEPHERD的开发与验证

【字体: 时间:2025年06月22日 来源:npj Digital Medicine 12.4

编辑推荐:

  本研究针对罕见病诊断难题,开发了SHEPHERD系统——一种基于知识图谱(KG)和少样本学习(few-shot learning)的深度学习方法。通过整合40,000例模拟患者数据和真实世界队列(UDN/MyGene2/DDD),该系统在因果基因发现(TOP1准确率40%)、相似患者检索(AMI=0.304)和新疾病表征方面表现优异,显著提升诊断效率2-3倍,为7000多种罕见病诊断提供新范式。

  

在医学领域,罕见病诊断如同大海捞针——全球有超过7000种罕见病,每种疾病患者不足5/10万,70%的患者长期无法确诊。这种困境源于临床经验匮乏和表型异质性:同种疾病可能表现为完全不同的症状组合,而不同疾病又可能呈现相似临床表现。更棘手的是,50%的孟德尔疾病致病基因尚未明确,传统深度学习方法需要每病数千例标注数据,这对罕见病而言简直是天方夜谭。

哈佛医学院等机构的研究团队在《npj Digital Medicine》发表突破性研究,开发出SHEPHERD系统。这项研究创新性地结合知识图谱(KG)与几何深度学习,仅需少量样本即可实现多维度罕见病诊断。通过分析465例Undiagnosed Diseases Network(UDN)患者和1431例Deciphering Developmental Disorders(DDD)研究数据,证明该系统在因果基因发现、患者相似性匹配和新疾病表征方面均显著优于现有方法。

研究采用三大关键技术:(1)构建包含105,220节点、109万边的罕见病知识图谱,整合Gene Ontology、HPO等7类生物医学数据;(2)开发自适应模拟算法生成40,624例表型-基因组合各异的虚拟患者用于模型训练;(3)设计多任务图神经网络,通过链接预测(LPSIM)和邻居成分分析(NCA)损失函数,实现表型子图与基因/疾病的联合嵌入。

SHEPHERD算法架构
系统采用两阶段训练策略:先通过自监督学习预训练KG节点嵌入,再通过患者特异性目标函数微调。关键创新在于将患者表型表示为KG子图,利用图注意力网络(GAT)生成融合全局拓扑(EMBSIM)和局部路径(SPLSIM)的混合相似度评分。如图2所示,患者嵌入会靠近其致病基因,而远离无关基因,这种几何特性使其能处理未见过的基因-表型组合。

因果基因发现性能
在UDN患者EXPERT-CURATED基因列表(平均13.3个候选基因)中,SHEPHERD的TOP1/TOP5准确率达40%/85%,较最佳基准LIRICAL提升24.4%。对于更具挑战性的VARIANT-FILTERED列表(平均244.3个基因),TOP50召回率48%,减少专家需评估的基因数达23.3%。图3显示其性能稳定跨越16个疾病领域和12个临床中心,且与表型术语数量(p=0.02)或基因常见度(ρ=-0.17)无显著相关性。

非典型病例诊断突破
针对表型-基因关联缺失的"硬诊断"病例(占UDN的28%),SHEPHERD展现出惊人泛化能力。如图4所示,患者UDN-P1的POLR3A基因与仅28.3%表型直接关联,但系统仍将其正确列为TOP1;对于PRKAR1B新基因相关病例UDN-P2(表型-基因平均距离2.4跳),系统在EXPERT-CURATED列表中将该基因排在TOP3。在全新基因/疾病预测任务中,系统胜率达86%。

患者相似性检索
通过UMAP可视化(图5)可见,系统生成的嵌入空间能自发形成疾病类别簇(AMI=0.304)。在MyGene2队列测试中,TOP50检索准确率53%,较Phrank提升17.2%。典型案例UDN-P6与检索到的Coffin-Siris综合征患者仅共享7.7%表型术语,但嵌入距离最近,证明系统能捕捉深层次表型模式而非简单术语重叠。

新疾病表征能力
系统通过计算患者嵌入与KG中疾病的L2距离,生成可解释的疾病相似度谱。如图6所示,ATP5PO相关Leigh综合征患者被正确归类为代谢异常(TOP1:combined oxidative phosphorylation deficiency 39),而表型搜索法则错误关联肿瘤性疾病。这种基于知识的结构化描述为未知疾病机制研究提供导航。

这项研究标志着罕见病诊断范式的转变。SHEPHERD首次证明:(1)模拟数据可有效解决罕见病样本稀缺问题;(2)知识图谱引导的几何深度学习能突破传统方法对直接表型-基因关联的依赖;(3)统一框架可同时支持基因发现、队列匹配和疾病解释。临床意义在于将平均诊断时间从数年缩短至分钟级,尤其有助于解决"诊断奥德赛"难题。未来通过整合变异数据和大语言模型(LLM),该系统有望成为罕见病诊疗的智能基础设施。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号