基于贝叶斯推理的电子健康记录疾病表型概率建模方法研究

【字体: 时间:2025年06月12日 来源:BioData Mining 4

编辑推荐:

  本研究针对电子健康记录(EHR)中疾病表型识别存在的分类不确定性难题,提出了一种无需金标准标签的贝叶斯概率模型LEVI(Label Estimation via Inference)。研究人员通过开发多源标注函数(LFs)集成框架,在四种疾病数据集上验证了该方法相较于专家逻辑规则(0.68 F1)和自然语言处理工具Medspacy(0.55 F1)的优越性(0.79-0.82 F1)。该模型通过概率输出实现了0.04的预期校准误差(ECE),显著提升了ROC AUC估计的覆盖性能(91% vs 39%),为临床决策中的风险-效益权衡提供了量化支持。

  

在医疗大数据时代,准确识别电子健康记录(EHR)中的疾病患者群体(即疾病表型)是临床研究和应用的基础。然而,现实中的EHR数据往往存在信息不完整、编码不一致等问题,使得传统的二分类方法难以应对诊断模糊的边界病例。这种不确定性可能导致后续研究出现偏差,甚至影响临床决策的准确性。现有方法如专家定制逻辑规则或自然语言处理(NLP)工具,要么缺乏扩展性,要么难以处理概率性诊断场景。

Tempus AI的研究团队在《BioData Mining》发表的研究中,创新性地提出了LEVI概率模型。该方法通过构建多源标注函数(LFs)投票系统,结合贝叶斯推断框架,实现了无需标注数据的疾病表型概率化建模。研究团队选取间质性肺病(ILD)、心力衰竭(HF)、肥厚型心肌病(HCM)和慢性阻塞性肺病(COPD)四种典型疾病,在包含180万患者的真实世界数据集中进行验证。

关键技术包括:1)基于正则表达式(RegEx)的疾病候选集筛选;2)开发正负双向标注函数(LFs)规则库;3)构建贝叶斯概率模型(先验参数αρ
=1.67, βρ
=5.75);4)采用期望校准误差(ECE)和Brier损失评估模型性能;5)基于决策理论设计成本敏感的操作点选择策略。

【结果】

  1. 分类性能:LF集成方法显著优于基线,多数投票(MV)和LEVI分别达到0.82 F1值,优于专家逻辑(0.68)和Medspacy(0.55)。LEVI在精确度(0.89)和校准性方面表现最佳。

  2. 概率特性:LEVI的ROC AUC达0.94,预期校准误差(ECE)仅0.04,显著优于Snorkel OSS(ECE=0.12)。如图2所示,其校准曲线最接近理想对角线。

  3. 统计推断:通过式(3)推导的ROC AUC后验分布显示,LEVI在95%置信水平下实现91%实际覆盖率,间隔评分(0.03)优于对比方法(0.10)。

  4. 临床应用:如图4所示,LEVI在多数成本比(CFP
    /CFN
    )下获得最高净效益,仅在假阳性成本极高时略逊于多数投票。

【结论】
该研究突破了传统表型定义的二分类局限,通过概率化建模更好地反映了临床诊断的不确定性。LEVI模型具有三大优势:1)通过最大熵原理确定的先验参数(αz+
=2.08, βz+
=45.72)确保模型稳健性;2)封闭解形式(式1)支持大规模EHR实时处理;3)基于决策理论的操作点选择(式5)实现个性化风险调整。这种概率表型在护理缺口识别、疗效评估等场景中展现出重要应用价值,为精准医学研究提供了新的方法论工具。未来研究可进一步探索先验优化和难例识别机制,以提升模型在跨机构数据中的泛化能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号