基于概率独立性分析的电子健康记录无监督疾病特征发现及其在肺结节恶性预测中的应用

【字体: 时间:2025年06月06日 来源:Journal of Biomedical Informatics 4.0

编辑推荐:

  研究人员针对临床疾病标签精度不足的问题,通过概率独立性分析(ICA)从电子健康记录(EHR)中无监督挖掘疾病特征,成功识别了269,099例患者中2,000个潜在疾病源及其临床特征。该模型在13,252例肺结节患者中预测恶性/良性准确率达AUC 0.788,并发现30%未确诊癌症病例,为精准诊疗提供了新路径。

  

在临床实践中,疾病诊断标签往往是对复杂病理生理机制的简化概括。这种"一刀切"的分类方式可能导致治疗失败——当患者的特定疾病机制对标准治疗方案无响应时,临床结局往往不尽如人意。电子健康记录(EHR)中蕴含着海量患者数据,但如何从中提取有意义的疾病特征一直是个巨大挑战。传统方法如硬聚类(hard clustering)只能识别单一模式,而自编码器(autoencoder)等方法又难以保证特征的因果性。

美国范德堡大学医学中心的研究团队在《Journal of Biomedical Informatics》发表了一项突破性研究。他们开发了一种基于概率独立性分析(Probabilistic Independence)的无监督学习方法,从630,000个训练实例中成功识别出2,000个潜在疾病源及其临床特征。研究团队首先将EHR中的9,195个变量(包括实验室检查结果、用药记录、账单代码和人口统计学数据)转化为连续时间曲线,然后使用快速独立成分分析(FastICA)进行分解。

关键技术包括:1)将稀疏、异步的EHR数据转化为连续时间曲线;2)采用FastICA算法实现线性非高斯无环模型(LiNGAM)分解;3)使用SHAP(Shapley Additive Explanations)值量化患者特异性因果效应;4)在13,252例肺结节患者队列(来自269,099例发现集)中验证模型性能。

研究结果显示:

  1. 疾病特征完整性:模型识别出92%的恶性病因和30%的良性病因,其中乳腺癌特征被分解为19个亚型,类风湿关节炎分解为21个亚型。
  2. 预测性能:随机森林(Random Forest)因果模型AUC达0.788,优于关联模型(AUC 0.738,p=0.058)。
  3. 新发现:在预测恶性结节的TOP20原因中,14个未列入参考标准但获文献支持,如COPD(慢性阻塞性肺病)与肺癌的关联(SHAP值0.0152)。
  4. 意外发现:模型检测到部分患者表达癌症特征却无癌症诊断代码,提示存在未确诊癌症(图4)。

讨论部分指出,该方法突破了传统EHR分析的三大局限:1)通过独立性约束解决了特征纠缠问题;2)首次在机构规模数据中实现病因的无监督发现;3)SHAP值量化实现了患者特异性病因分析。值得注意的是,膀胱癌特征(ID 1452)的表达极性可能区分已转移和未转移病例,这为癌症早筛提供了新思路。

这项研究的意义在于:1)为精准诊断提供了可解释的疾病特征集;2)证明了EHR数据中蕴含未诊断疾病信号;3)建立的因果模型框架可扩展至其他疾病领域。未来工作需解决特征分解的时序性问题,并整合基因组等多元数据以提升分辨率。该成果标志着临床决策支持系统向真正个性化医疗迈出了关键一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号