基于Transformer模型的电子健康记录患者嵌入方法实现疾病分层与进展分析

【字体: 时间:2025年08月15日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对电子健康记录(EHR)二次利用中依赖领域知识的局限性,开发了一种基于Transformer的无监督患者嵌入方法。研究人员通过整合eMERGE网络中102,740名患者的1,046,649条纵向医疗事件数据,构建了能够表征疾病异质性的患者嵌入模型。该模型在疾病预测(中位AUROC=0.87)和批量表型分析(中位AUROC=0.84)中表现优异,成功识别出结直肠癌和系统性红斑狼疮的亚型及进展模式,为个性化医疗提供了新思路。

  

在医疗大数据时代,电子健康记录(EHR)已成为临床研究的金矿,但如何从海量异构数据中挖掘有价值的医学模式仍是重大挑战。传统方法高度依赖专家经验,难以发现潜在疾病关联。更棘手的是,患者病程的时空异质性使得标准化的疾病分层和进展预测变得异常困难——这正是精准医疗亟待突破的关键瓶颈。

来自美国华盛顿大学等12家机构的研究团队在《npj Digital Medicine》发表创新成果,提出基于Transformer架构的EHR患者嵌入模型。该研究通过三阶段建模策略:首先用变分自编码器压缩34,851个医疗代码为50维向量;随后采用Transformer处理患者年度就诊"句子";最终通过Sentence-BERT生成统一患者嵌入。研究利用eMERGE网络102,740名患者的百万级医疗事件训练模型,并在84万人的华盛顿大学EHR队列中验证。

关键技术包括:1) 基于年龄发病频率的医疗代码嵌入;2) 掩码预测训练的Transformer时序建模;3) 患者身份识别与事件连续性判定的双任务微调。研究特别设计了纵向分析框架,将10年随访数据通过主成分分析(PC1-3解释75.6%方差)揭示疾病轨迹差异。

模型性能验证

疾病预测任务中,模型对1855种表型的中位AUROC达0.87,妊娠并发症预测最优(AUROC=0.93)。批量表型分析中位AUROC为0.84,显著优于传统矩阵分解方法。外部验证显示模型在UW队列保持稳定性能(中位AUROC=0.83-0.84),证实其泛化能力。

疾病亚型发现

通过高斯混合模型(GMM)聚类发现:

  • 结直肠癌(CRC)存在4种共病模式:HIV相关早发型(中位51岁)、转移瘤主导型(62岁)、代谢紊乱型(60岁)和心血管并发症型(72岁)。UW队列验证显示HIV相关亚型10年生存率显著降低(p<8.01e-4)。

  • 系统性红斑狼疮(SLE)聚类揭示:妊娠并发症型(44岁)与肾脏病变型(56岁)等亚组,男性患者聚集的亚组生存率最低(OR=2.54,p=1.42e-14)。

疾病进展轨迹

CRC患者10年纵向分析显示:

  • PC1-2变异主要受聚类分组驱动(p<2e-5)

  • 不同亚型获得新表型的频率差异显著(21%→55%),如HIV亚型更易出现"其他贫血"(phecode=284)

这项研究开创性地将自然语言处理技术应用于EHR深度挖掘,其价值体现在三方面:首先,无监督框架突破了传统表型分析对专家规则的依赖;其次,时序嵌入模型首次实现了疾病进展的量化表征;最重要的是,发现的共病亚型为精准预后提供了分子分型之外的临床维度。研究建立的在线可视化平台(https://ehrcluster.web.app/)已开放访问,为临床医生探索疾病异质性提供了实用工具。未来整合实验室数据和药物信息后,这类模型有望成为智能临床决策系统的核心引擎。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号