基于早期融合混合CNN-Transformer模型的卵巢肿瘤超声多类别分类研究
《Frontiers in Artificial Intelligence》:Early-fusion hybrid CNN-transformer models for multiclass ovarian tumor ultrasound classification
【字体:
大
中
小
】
时间:2025年10月15日
来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
本文提出一种基于早期融合(joint projection)的混合CNN-Transformer模型,结合EfficientNet-B7(局部特征)与Swin Transformer(全局上下文),在OTU-2D数据集(n=1,469张图像)上实现八类卵巢肿瘤的超声分类。通过患者级别分层5折交叉验证(重复10次),模型达到AUC 0.9904、准确率92.13%、灵敏度92.38%、特异性98.90%,显著优于单一CNN或ViT基线。研究进一步通过概率校准(isotonic regression)、决策曲线分析(decision-curve analysis)、熵不确定性评估及Grad-CAM可解释性分析,推动卵巢超声AI从“仅关注精度”向校准化、可解释、不确定性感知的临床决策支持系统演进。
卵巢癌(OC)是全球致死率最高的妇科恶性肿瘤,据世界卫生组织(WHO)统计,其年新发病例约32.5万,死亡病例约20.7万,五年生存率低于50%,主要归因于晚期诊断。经阴道超声(TVS)因其无创、便捷成为卵巢肿块初筛的首选影像学工具,但其特异性有限且存在操作者依赖性,常导致假阳性与不必要的侵入性检查。现有临床依赖IOTA或O-RADS等结构化标准及专家主观评估,仍存在观察者间变异大、可重复性差的问题,亟需自动化、客观化的诊断工具提升诊断一致性。
近年来,人工智能(AI)与深度学习(DL)在医学影像分析中展现出强大潜力。卷积神经网络(CNN)凭借优异的局部特征提取能力,已成为乳腺、肺部及脑部病变分类的金标准;视觉Transformer(ViT)则擅长捕捉全局上下文信息,但在保留细粒度局部特征方面存在不足。混合CNN-Transformer架构在其他医学影像任务(如肺结节分割、乳腺癌分类)中已证明能协同提升性能,然而在卵巢超声领域的应用尚属空白。现有研究多采用晚期融合策略,限制了特征早期交互的潜力。本研究创新性地提出一种学习型早期融合(联合投影)混合模型,通过EfficientNet-B7与Swin Transformer的早期特征交叉优化,实现多类别卵巢肿瘤的高精度分类,并为临床部署提供校准、可解释及不确定性评估的全方位验证。
研究采用公开的去标识化OTU-2D数据集,包含1,469张二维B超图像,覆盖八种病理类型:巧克力囊肿(子宫内膜异位囊肿)、浆液性囊腺瘤、黏液性囊腺瘤、畸胎瘤、单纯性囊肿(功能性囊肿)、卵泡膜细胞瘤、高级别浆液性癌和正常卵巢。所有图像均经病理学确诊,并依据IOTA与O-RADS US(2022)标准标注。因数据已去标识化,本研究无需额外伦理审批。数据处理遵循隐私保护原则(数据最小化、加密传输、审计日志),符合GDPR等法规对二次研究的要求。
图像统一缩放至224×224像素,并基于ImageNet均值(0.485, 0.456, 0.406)与标准差(0.229, 0.224, 0.225)进行归一化。为提升模型泛化能力,训练集应用超声特异性数据增强(如旋转、平移、添加瑞利分布散斑噪声、亮度对比度调整、声影模拟等),但验证集与测试集保持原始分布以避免信息泄露。针对类别不平衡问题,训练阶段采用随机过采样(仅限训练集)结合Dropout(p=0.3)与L2权重衰减进行正则化。
研究对比了三种CNN(ResNet-152、DenseNet-201、EfficientNet-B7)与两种Transformer(ViT-B16、Swin Transformer)基线模型。混合模型通过早期融合策略将CNN的局部特征fCNN∈?dc与Transformer的全局特征fViT∈?dt拼接为h0=[fCNN;fViT],再经联合投影z=?(W1h0+b1)与Softmax分类器输出概率。该设计使梯度能够共同优化双分支特征,促进局部与全局信息的早期协同适应。
模型采用患者级别分层5折交叉验证(重复10次),使用Adam优化器(初始学习率1×10?4)、分类交叉熵损失函数,并引入动态学习率调整与早停策略。评估指标包括准确率、灵敏度、特异性、AUC-ROC、F1分数与马修斯相关系数(MCC),所有结果均报告95%置信区间(bootstrap重采样500次)。统计显著性通过Shapiro-Wilk正态性检验后,选用配对t检验或Wilcoxon符号秩检验(α=0.01)进行验证。
采用Grad-CAM生成激活热图,可视化模型关注区域,证实其与临床关键病灶区域一致。通过预测熵量化不确定性,定义低置信度样本的临床复核阈值,支持风险感知的自动化决策。
EfficientNet-B7–Swin混合模型在八分类任务中表现最优:准确率92.13%(90.7–93.2)、灵敏度92.38%(91.0–93.4)、特异性98.90%(98.7–99.0)、AUC 0.9904(0.987–0.993)。统计检验显示其显著优于单一CNN或Transformer基线(p<0.001)。软集成策略(加权融合Top3混合模型)进一步提升性能至准确率93.3%、灵敏度93.6%、特异性99.0%、AUC 0.991。
混淆矩阵显示,高级别浆液性癌与卵泡膜细胞瘤的灵敏度接近100%,而巧克力囊肿(82%)与正常卵巢(87%)的误判主要发生于形态学相似的囊性病变间,符合临床认知。
所有指标在训练早期(2–4轮次)即收敛,十次重复实验的标准差随训练进程降低,证明方案稳健性。概率校准后,模型预测风险与真实发生率高度匹配;决策曲线分析表明在5–20%风险阈值范围内具有显著临床净获益。
熵分析显示,低不确定性样本( deciles 1–5)错误率可忽略,而最高不确定性 decile(10)错误率达43%,支持对90%高置信度病例实现自动化诊断,剩余10%交由专家复核的混合工作流。
本研究通过早期融合混合架构有效整合CNN的局部细节与Transformer的全局上下文,在多类别卵巢超声分类中实现SOTA性能。方法学核心在于以患者级别交叉验证、超声特异性增强与过采样策略控制过拟合,同时引入校准、DCA、不确定性评估等部署导向指标,超越传统“唯精度论”框架。局限性包括单中心数据依赖性与未探索全部CNN-Transformer组合,未来需通过多中心外部验证深化泛化性证明。
在临床转化层面,模型需符合医疗器械软件(MDSW)监管要求(如欧盟MDR、美国FDA的SaMD指南),并建立AI治理框架(如模型监控、偏移检测、人机协同流程)。研究为卵巢超声AI提供了可复现的技术参考与临床整合路径,推动其向可靠、可审计的辅助诊断系统演进。
早期融合混合CNN-Transformer模型在卵巢肿瘤超声多类别分类中展现出卓越性能与临床实用性。通过集成校准、可解释性与不确定性分析,本研究为AI驱动的高精度、可信赖卵巢癌诊断奠定了基础,有望优化临床决策流程,提升医疗资源分配效率,最终改善患者预后。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号