
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释联邦学习与视觉Transformer的乳腺癌风险预测混合框架研究
【字体: 大 中 小 】 时间:2025年05月28日 来源:Scientific Reports 3.8
编辑推荐:
乳腺癌是全球女性健康的主要威胁,早期诊断对提高生存率至关重要。为解决数据隐私和模型可解释性问题,Aymen M. Al-Hejri团队开发了一种结合联邦学习(FL)与可解释人工智能(XAI)的混合框架CEET-Fed,通过整合Vision Transformer(ViT)和卷积神经网络(CNN)特征,在乳腺癌风险预测中实现了98.65%的准确率,为临床实践提供了隐私保护且高精度的解决方案。
乳腺癌是全球女性最常见的恶性肿瘤之一,每年新增病例高达230万,占所有新发癌症的12.5%。尽管早期诊断可显著提高治愈率,但传统方法依赖影像学检查,存在成本高、隐私泄露风险等问题。此外,现有AI模型往往缺乏可解释性,难以获得临床信任。这些挑战促使研究人员探索更安全、透明且高效的预测方法。
印度Swami Ramanand Teerth Marathwada大学计算科学学院的Aymen M. Al-Hejri团队联合多国机构,开发了一种名为CEET-Fed的创新框架,将联邦学习与可解释AI技术相结合,利用患者风险因素和健康记录数据实现乳腺癌精准预测。该研究发表在《Scientific Reports》上,为医疗AI领域提供了兼顾隐私与性能的范式。
研究团队采用了三项关键技术:1)基于随机森林的特征选择,从41项临床特征中筛选关键指标;2)混合深度学习架构,融合CNN局部特征与ViT全局注意力机制;3)联邦学习框架,通过3个客户端分布式训练保护数据隐私。实验使用也门国家癌症控制基金会提供的734例患者数据,涵盖二进制分类(正常/异常)、多分类(正常/良性/恶性)和BI-RADS分级任务。
数据集描述与预处理
收集包含41项风险因素的电子健康记录(EHR),经IRB批准后纳入802例患者数据。通过中位数填充缺失值、有序编码分类变量和MinMaxScaler标准化处理,最终形成734例有效样本。特征重要性分析显示年龄、BMI、体重等临床指标最具预测价值。
模型架构设计
在集中式学习场景中,比较了7种机器学习模型和3种深度学习架构。最优的BaggingClassifier在BI-RADS分类中达到95.95%准确率。提出的CEET-Fed混合模型通过集成VGG16和ResNet50的高维特征,结合ViT编码器的自注意力机制,在二进制分类中取得97.30%的准确率,AUC达0.970。
联邦学习实现
采用TensorFlow Federated框架构建3客户端系统,每轮训练50个epoch后进行10轮参数聚合。联邦场景下模型性能显著提升,二进制分类准确率达98.65%,验证了框架在数据异构性环境中的鲁棒性。
可解释性分析
通过LIME技术可视化模型决策依据,发现"腋窝肿块"、"月经规律性"等临床特征对分类贡献显著。在BI-RADS案例中,特征权重与放射科医生判断标准高度一致,增强了临床可信度。
这项研究开创性地将联邦学习与可解释AI结合,解决了医疗数据隐私和模型透明度两大核心问题。提出的CEET-Fed框架在三种分类任务中均表现优异,特别是联邦学习场景下的性能超越集中式训练,证实了分布式学习的临床实用价值。研究团队指出,未来可进一步整合影像数据,开发端到端诊断系统。该成果为AI在敏感医疗领域的应用提供了重要参考,推动了个性化癌症预防的发展。
生物通微信公众号
知名企业招聘