基于多模态集成学习的电子健康记录青光眼患者精准识别研究

【字体: 时间:2025年08月12日 来源:JAMIA Open 3.4

编辑推荐:

  本研究针对传统青光眼患者识别方法依赖结构化数据、存在类别不平衡和算法公平性问题,创新性地提出结合结构化数据(SDE)和自由文本的多模态集成学习模型。研究团队通过整合EditedNearestNeighbor(ENN)欠采样和Borderline-Synthetic Minority Over-sampling Technique(bSMOTE)技术,开发了基于Lasso Regression(LR)的bagging集成模型,在密歇根大学和斯坦福大学两个医疗系统的1728例患者数据验证中,该模型F1值达83.02[70.59-92.86],AUROC达97.59[92.98-99.88],显著优于传统ICD编码方法(F1=53.01),且在不同人口统计学亚组中表现出更好的公平性(EOD<0.1),为罕见病表型识别提供了新范式。

  

青光眼作为导致不可逆性失明的主要原因之一,影响着全球超过3百万患者。在临床研究和实践中,准确识别青光眼患者对疾病管理和研究至关重要。然而,现有方法主要依赖国际疾病分类(ICD)编码等结构化数据元素(SDE),存在识别精度低、假阳性率高等问题。更棘手的是,青光眼在人群中的相对低患病率(约10-23%)导致数据严重不平衡,传统机器学习模型往往难以准确识别这类"少数派"患者。此外,不同种族、性别间的诊断差异也引发了算法公平性的担忧——这些挑战共同构成了青光眼精准医疗道路上的多重障碍。

斯坦福大学医学院(Stanford University School of Medicine)的研究团队联合密歇根大学眼科团队,在《JAMIA Open》发表了一项突破性研究。他们创新性地将自然语言处理技术与集成学习相结合,开发出能够公平、准确识别青光眼患者的多模态模型。研究通过整合电子健康记录(EHR)中的结构化数据和临床自由文本,采用先进的采样技术和集成算法,不仅显著提高了识别准确率,还确保了模型在不同人口统计学亚群中的公平性,为罕见病表型识别树立了新标准。

研究团队采用了三项核心技术方法:首先使用BioClinicalBERT模型处理临床自由文本生成768维嵌入向量;其次应用EditedNearestNeighbor(ENN)欠采样和Borderline-SMOTE(bSMOTE)过采样技术处理类别不平衡;最后开发了基于Lasso Regression(LR)的bagging集成学习框架,整合来自密歇根大学(900例)和斯坦福大学(828例)两个医疗系统的患者数据进行分析验证。

研究结果部分,在"Internal validation using data from UoM"中显示,多模态LR模型(F1=76.60[61.90-88.89])显著优于单模态RF模型(F1=69.77[52.94-83.64])和传统ICD编码方法(F1=53.01[39.51-65.43])。通过"Model interpretability and explainability"分析发现,青光眼药物(coefficient=4.1)和青光眼性视神经病变(coefficient=1.1)是最具预测性的特征。"External validation using data from SU"证实,bagging集成模型(LRENN+LRbSMOTE)在外部验证中保持最优性能(F1=68.47[62.61-73.75]),展现出良好的泛化能力。特别值得注意的是,"Model fairness"评估显示该模型在不同性别(EOD<0.1)、种族(EOD<0.5)和民族(EOD<0.5)亚群中都表现出较好的公平性。

这项研究在方法学和应用层面均具有重要价值。在技术上,首次系统评估了多模态集成学习模型在青光眼识别中的性能,证实整合临床自由文本能显著提升模型准确性。创新的bagging集成策略有效解决了类别不平衡问题,而提出的Target Probability Difference(TPD)指标为评估模型公平性提供了新视角。在临床应用上,该模型可使青光眼识别准确率相对传统方法提升57%,且在不同人群中保持稳定性能,这对实现精准医疗和减少健康差异具有重要意义。研究建立的框架可扩展至其他罕见病表型识别,为利用真实世界数据(RWD)开展临床研究提供了可靠工具。正如作者强调的,这种方法将助力研究人员更准确地识别目标患者群体,为临床试验招募和观察性研究提供支持,最终改善患者管理和临床结局。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号