基于多模态电子健康记录的乳腺癌无病生存期预测:M-BEHRT模型的研究与应用
《Frontiers in Oncology》:Multimodal BEHRT: transformers for multimodal electronic health records to predict breast cancer prognosis
【字体:
大
中
小
】
时间:2025年10月18日
来源:Frontiers in Oncology 3.3
编辑推荐:
本文提出了一种创新的多模态深度学习框架M-BEHRT,通过整合动态临床数据(如dNPI、治疗方案)和自由文本医疗报告,显著提升了乳腺癌患者术后3年无病生存期(DFS)的预测精度(AUC=0.77)。该模型利用Transformer架构捕捉患者纵向医疗轨迹中的关键模式,为个体化预后评估提供了新范式。
乳腺癌作为女性最常见的恶性肿瘤,其预后评估对治疗策略制定至关重要。传统预后工具如诺丁汉预后指数(NPI)主要依赖静态病理特征,难以全面反映疾病动态演变过程。电子健康记录(EHR)中蕴含的纵向临床数据和多模态信息为精准预后建模提供了新机遇。本研究旨在开发一种能够整合时序性结构化数据和自由文本报告的新型深度学习框架,以提升乳腺癌无病生存期(DFS)的预测性能。
研究纳入Institut Curie医院2005-2012年接受辅助化疗的乳腺癌患者队列。数据预处理涵盖多模态特征提取:动态临床指标包括年龄、肿瘤分级、分子分型等;治疗信息涵盖手术、化疗、放疗等时序记录;实验室检查包括CA15-3、淋巴细胞计数等5种生物标志物的动态变化;自由文本医疗报告经过专业术语标准化处理。创新性提出动态诺丁汉预后指数(dNPI),通过融合时序肿瘤尺寸和淋巴结状态更新传统NPI评分。
模型架构核心包括三个组件:Tabular BEHRT通过掩码语言模型(MLM)预训练学习结构化数据的时序表征;Text BEHRT利用法文生物医学预训练模型DrBERT生成医疗报告嵌入;M-BEHRT通过跨注意力机制融合双模态信息。模型采用类别平衡采样策略解决数据偏斜问题(阴性样本仅占6.2%)。
模型验证显示,M-BEHRT在测试集上达到AUC 0.77(95%CI 0.70-0.84),显著优于传统机器学习方法(随机森林AUC 0.71)和单纯NPI评分(AUC 0.69)。消融实验证实多模态融合的协同效应:单独使用结构化数据(Tabular BEHRT)和文本数据(Text BEHRT)的AUC分别为0.75,而融合模型提升2个百分点。特征重要性分析显示dNPI贡献度最高,生物标志物相对较弱但仍具信息量。
模型可解释性研究通过积分梯度法识别关键预测因子:除经典预后因素(年龄、淋巴结状态)外,文本特征如"乳腺部分脂肪置换伴腺体成分<50%"(HR=1.8, p<0.01)和"腋窝淋巴结清扫"等与DFS显著相关。亚组分析表明模型对HER2阳性和三阴性乳腺癌的预测效能更优(AUC>0.85),对年轻患者和早期肿瘤的预测存在挑战。
本研究突破性地实现了小样本量(n=8,089)下的Transformer模型有效训练,通过MLM预学习患者轨迹表征。首次将法文临床文本嵌入应用于乳腺癌预后建模,验证了多语言医疗NLP的可行性。模型时序建模能力支持动态风险评估,为临床决策提供连续监测工具。
研究局限包括单中心数据可能引入机构偏倚,生物标志物种类有限可能影响预测维度。文本嵌入的池化操作可能损失局部语义信息,长序列处理受Transformer架构约束。
M-BEHRT框架成功证明了多模态EHR数据在乳腺癌预后预测中的巨大潜力。该模型不仅实现了优于传统方法的预测精度,还通过可解释性分析揭示了新的潜在预后因素。未来工作将聚焦于外部验证、多中心数据融合以及实时预后预警系统的开发,推动精准肿瘤学向动态化、个体化方向演进。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号