整合大规模遗传与临床信息预测心力衰竭:多组学风险评分的突破性研究

《Communications Medicine》:Integrating large scale genetic and clinical information to predict cases of heart failure

【字体: 时间:2025年11月23日 来源:Communications Medicine 6.3

编辑推荐:

  本研究针对心力衰竭(HF)早期预测难题,通过整合全基因组关联研究(GWAS)衍生的多基因风险评分(PRS)与电子健康记录(EHR)构建的临床风险评分(ClinRS),开发了一种新型风险预测模型。研究利用自然语言处理(NLP)技术从29,346个医疗诊断代码中提取潜在表型,结合全球生物样本库(GBMI)中51,274例HF病例的GWAS数据,结果显示PRS与ClinRS联合模型可在诊断前10年预测HF(AUC=0.79),较单一风险因子预测时间提前2年。该方法为HF早期干预提供了可标准化、可扩展的精准预防策略。

  
心力衰竭(Heart Failure, HF)作为全球范围内导致死亡的主要疾病之一,影响着约6400万患者,且随着人口老龄化趋势,其疾病负担持续加重。更严峻的是,普通人群的超声心动图筛查显示,近半数心衰患者可能尚未被确诊,这直接阻碍了患者早期获得可降低死亡率的治疗方案。当前临床常用的心衰风险预测工具,如动脉粥样硬化风险社区(ARIC)研究评分、弗拉明汉风险评分等,多依赖于专家筛选的有限临床变量,且往往未整合遗传风险信息,导致预测时效性和准确性有限。因此,开发一种能够融合高维遗传数据与临床信息的新型预测模型,对于实现心衰的早期预警和精准干预具有重要意义。
在此背景下,发表于《Communications Medicine》的一项研究提出了一种创新性解决方案。该研究通过整合来自全球生物样本库meta分析(GBMI)的大规模心衰GWAS数据,以及来自医疗系统的电子健康记录(EHR),分别构建了多基因风险评分(PRS)和临床风险评分(ClinRS),并验证了二者联合使用的预测效能。
研究团队为开展此项工作,主要采用了以下几项关键技术方法:首先,利用密歇根医学(Michigan Medicine)的三个临床队列——初级保健提供者队列(MM-PCP,N=61,849)、心衰队列(MM-HF,N=53,272)和密歇根基因组计划队列(MM-MGI,N=60,215)作为数据来源。其次,采用自然语言处理(NLP)技术,将EHR中的诊断代码视为“词汇”,通过计算代码共现模式生成350维的医疗代码嵌入(medical code embeddings),进而转化为患者层面的潜在表型。再次,使用最小绝对收缩和选择算子(LASSO)回归在训练集中确定各潜在表型对心衰结局的权重,从而构建ClinRS。同时,基于GBMI联盟中9个生物样本库、总计974,174名欧洲裔个体的心衰GWAS汇总统计数据,应用PRS-CS方法计算个体的PRS。最后,通过逻辑回归模型比较了基线模型(仅含年龄、性别)、单独加入PRS或ClinRS的模型、以及联合模型在诊断前1年至10年的预测性能,并以10折交叉验证的曲线下面积(AUC)作为主要评估指标。
NLP提取的医疗代码嵌入具有临床意义
研究首先验证了通过NLP技术从EHR诊断代码中学习到的向量表示的临床合理性。通过计算同一表型组(phecode)内代码对的余弦距离,得出概念AUC(concept-AUC)为0.78,表明代码嵌入能有效捕捉临床概念上的相似性。例如,肿瘤相关代码在嵌入空间中显示出清晰的亚章结构,同一器官系统的癌症代码具有更高的语义相似性。
PRS和ClinRS分别可提前八年预测心衰病例
评估结果显示,在诊断前一年,单独使用PRS的模型AUC为0.76(95% CI: 0.74-0.83),ClinRS模型AUC达0.85(0.83-0.87),均显著优于基线模型(AUC=0.70)。两者均能在诊断前八年显著预测心衰发生。值得注意的是,在诊断前一年,ClinRS的预测准确性显著高于ARIC风险评分。
整合PRS与ClinRS增强心衰预测能力
联合使用PRS和ClinRS的模型在所有时间点上均表现出最高的预测精度。尤其重要的是,该联合模型可在心衰诊断前十年实现显著预测(AUC=0.79),比单独使用任一评分提前了两年。这表明遗传和临床信息的整合具有明显的互补增强效应。
排除循环系统诊断代码后结果仍稳健
为验证ClinRS的稳健性并排除过拟合担忧,研究人员进行了敏感性分析,剔除了所有循环系统诊断代码后构建ClinRS-NoCirc。结果显示,即使不含直接相关代码,ClinRS-NoCirc仍能在诊断前六年显著预测心衰(AUC=0.77),且与PRS联用后,十年期的预测优势依然存在(AUC=0.78)。这表明NLP方法通过间接关联模式捕捉了潜在的疾病风险。
ClinRS的临床洞见
对ClinRS权重的分析揭示了与心衰相关的风险和保护性因素。风险因素中除急性心肌梗死等直接相关诊断外,还包括马凡综合征、酒精滥用等非心脏性潜在致病因素。保护性因素中则出现了与妊娠相关和眼科诊断相关的代码集群,这可能反映了低风险人群的特征。
本研究通过整合GWAS和EHR衍生的风险评分,成功将心衰的预测窗口提前至诊断前十年,较传统方法显著延长。这种可标准化、可扩展的风险预测工具,为在心衰发生前实施早期干预提供了可能。尽管当前研究主要基于欧洲裔人群,且仅利用了诊断代码信息,但所提出的方法框架具有向其他复杂疾病及多源数据扩展的潜力。未来,通过纳入更多样化的人群数据、结合多模态医疗信息,并开展前瞻性干预试验,将进一步推动该策略向临床实践的转化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号