基于多模态机器学习的宫颈癌风险评估与预测模型开发:整合组织病理学图像与临床数据提升LMICs诊断效能

【字体: 时间:2025年09月02日 来源:BMC Medical Informatics and Decision Making 3.8

编辑推荐:

  本研究针对低收入和中等收入国家(LMICs)宫颈癌诊断资源匮乏的现状,开发了一种融合组织病理学图像(VGG16/ResNet50)与临床记录(Random Forest)的多模态机器学习模型。通过整合404例活检图像和499份患者数据,采用CLAHE增强、SMOTE-Tomek平衡及递归特征消除(RFE)等技术,模型准确率达92%,显著优于单模态方法(图像91%/临床96%)。该研究为资源受限地区提供了可部署的自动化诊断方案,推动宫颈癌早期筛查的公平性。

  

宫颈癌作为全球女性第四大高发癌症,在低收入和中等收入国家(LMICs)造成的死亡占比高达94%。埃塞俄比亚等地区面临严峻挑战:病理医生短缺导致活检解读耗时且主观,农村地区筛查覆盖率不足,晚期确诊率高。传统单模态诊断方法(如仅依赖图像或临床数据)难以应对LMICs医疗数据的碎片化特征。如何开发兼顾准确性与临床适用性的工具,成为亟待解决的问题。

为此,Kelebet Chane Jemane等学者在《BMC Medical Informatics and Decision Making》发表研究,创新性地将深度学习与经典机器学习结合。团队从Jimma Medical Center收集404张宫颈活检图像(三星M13手机显微拍摄)和499份患者临床记录,通过以下关键技术构建模型:(1)图像预处理采用YCrCb色彩空间转换与CLAHE增强;(2)临床数据处理运用SMOTE-Tomek联合采样和RFE特征选择;(3)采用VGG16/ResNet50提取图像特征,Random Forest分析结构化数据;(4)通过概率平均实现多模态晚期融合。

研究结果

数据特征分析

患者平均年龄50岁,40-60岁为高发人群。农村地区 squamous cell carcinoma(SCC)病例占比显著高于城市(336 vs 132例),多产次妇女癌症风险升高4.6倍。

模型性能验证

  • 单模态比较:VGG16在图像分类中表现最优(测试准确率91%,AUC 98.5%),显著优于ResNet50(89%)。Random Forest对临床数据分析达96%准确率,关键特征包括居住地、阴道分泌物、性交后出血等。

  • 多模态优势:融合模型准确率92%,对SCC和癌前病变的识别精度分别达94%和96%。

讨论与意义

该研究突破性地证明:在数据质量受限的LMICs场景中,多模态融合可提升模型鲁棒性。通过将图像特征(如核异型性)与临床指标(如STI病史)关联,系统复现了医生综合判断的逻辑。相较于Chen等学者提出的MultiFuseNet(87.4%准确率),本模型展现出更优的泛化能力。

研究局限性包括样本量较小和回顾性数据偏差,但提出的轻量化架构(如优化后的512单元密集层)为移动端部署奠定基础。未来工作需扩大跨区域验证,并探索基于SHAP等技术的可解释性改进。这项成果为LMICs宫颈癌筛查提供了新范式,其方法论亦可拓展至其他资源受限地区的癌症诊断领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号