基于早期融合混合CNN-Transformer模型的卵巢肿瘤超声多类别分类研究

《Frontiers in Artificial Intelligence》：Early-fusion hybrid CNN-transformer models for multiclass ovarian tumor ultrasound classification

【字体：大中小】 时间：2025年10月15日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　本文提出一种基于早期融合（joint projection）的混合CNN-Transformer模型，结合EfficientNet-B7（局部特征）与Swin Transformer（全局上下文），在OTU-2D数据集（n=1,469张图像）上实现八类卵巢肿瘤的超声分类。通过患者级别分层5折交叉验证（重复10次），模型达到AUC 0.9904、准确率92.13%、灵敏度92.38%、特异性98.90%，显著优于单一CNN或ViT基线。研究进一步通过概率校准（isotonic regression）、决策曲线分析（decision-curve analysis）、熵不确定性评估及Grad-CAM可解释性分析，推动卵巢超声AI从“仅关注精度”向校准化、可解释、不确定性感知的临床决策支持系统演进。

1 引言

卵巢癌（OC）是全球致死率最高的妇科恶性肿瘤，据世界卫生组织（WHO）统计，其年新发病例约32.5万，死亡病例约20.7万，五年生存率低于50%，主要归因于晚期诊断。经阴道超声（TVS）因其无创、便捷成为卵巢肿块初筛的首选影像学工具，但其特异性有限且存在操作者依赖性，常导致假阳性与不必要的侵入性检查。现有临床依赖IOTA或O-RADS等结构化标准及专家主观评估，仍存在观察者间变异大、可重复性差的问题，亟需自动化、客观化的诊断工具提升诊断一致性。

近年来，人工智能（AI）与深度学习（DL）在医学影像分析中展现出强大潜力。卷积神经网络（CNN）凭借优异的局部特征提取能力，已成为乳腺、肺部及脑部病变分类的金标准；视觉Transformer（ViT）则擅长捕捉全局上下文信息，但在保留细粒度局部特征方面存在不足。混合CNN-Transformer架构在其他医学影像任务（如肺结节分割、乳腺癌分类）中已证明能协同提升性能，然而在卵巢超声领域的应用尚属空白。现有研究多采用晚期融合策略，限制了特征早期交互的潜力。本研究创新性地提出一种学习型早期融合（联合投影）混合模型，通过EfficientNet-B7与Swin Transformer的早期特征交叉优化，实现多类别卵巢肿瘤的高精度分类，并为临床部署提供校准、可解释及不确定性评估的全方位验证。

2 材料与方法

2.1 伦理与数据

研究采用公开的去标识化OTU-2D数据集，包含1,469张二维B超图像，覆盖八种病理类型：巧克力囊肿（子宫内膜异位囊肿）、浆液性囊腺瘤、黏液性囊腺瘤、畸胎瘤、单纯性囊肿（功能性囊肿）、卵泡膜细胞瘤、高级别浆液性癌和正常卵巢。所有图像均经病理学确诊，并依据IOTA与O-RADS US（2022）标准标注。因数据已去标识化，本研究无需额外伦理审批。数据处理遵循隐私保护原则（数据最小化、加密传输、审计日志），符合GDPR等法规对二次研究的要求。

2.2 图像预处理

图像统一缩放至224×224像素，并基于ImageNet均值（0.485, 0.456, 0.406）与标准差（0.229, 0.224, 0.225）进行归一化。为提升模型泛化能力，训练集应用超声特异性数据增强（如旋转、平移、添加瑞利分布散斑噪声、亮度对比度调整、声影模拟等），但验证集与测试集保持原始分布以避免信息泄露。针对类别不平衡问题，训练阶段采用随机过采样（仅限训练集）结合Dropout（p=0.3）与L₂权重衰减进行正则化。

2.3 深度学习架构

研究对比了三种CNN（ResNet-152、DenseNet-201、EfficientNet-B7）与两种Transformer（ViT-B16、Swin Transformer）基线模型。混合模型通过早期融合策略将CNN的局部特征f_CNN∈?^d_c与Transformer的全局特征f_ViT∈?^d_t拼接为h₀=[f_CNN;f_ViT]，再经联合投影z=?(W₁h₀+b₁)与Softmax分类器输出概率。该设计使梯度能够共同优化双分支特征，促进局部与全局信息的早期协同适应。

2.4 训练与评估

模型采用患者级别分层5折交叉验证（重复10次），使用Adam优化器（初始学习率1×10^?4）、分类交叉熵损失函数，并引入动态学习率调整与早停策略。评估指标包括准确率、灵敏度、特异性、AUC-ROC、F1分数与马修斯相关系数（MCC），所有结果均报告95%置信区间（bootstrap重采样500次）。统计显著性通过Shapiro-Wilk正态性检验后，选用配对t检验或Wilcoxon符号秩检验（α=0.01）进行验证。

2.5 可解释性与不确定性分析

采用Grad-CAM生成激活热图，可视化模型关注区域，证实其与临床关键病灶区域一致。通过预测熵量化不确定性，定义低置信度样本的临床复核阈值，支持风险感知的自动化决策。

3 结果

3.1 模型性能比较

EfficientNet-B7–Swin混合模型在八分类任务中表现最优：准确率92.13%（90.7–93.2）、灵敏度92.38%（91.0–93.4）、特异性98.90%（98.7–99.0）、AUC 0.9904（0.987–0.993）。统计检验显示其显著优于单一CNN或Transformer基线（p<0.001）。软集成策略（加权融合Top3混合模型）进一步提升性能至准确率93.3%、灵敏度93.6%、特异性99.0%、AUC 0.991。

3.2 类别特异性诊断

混淆矩阵显示，高级别浆液性癌与卵泡膜细胞瘤的灵敏度接近100%，而巧克力囊肿（82%）与正常卵巢（87%）的误判主要发生于形态学相似的囊性病变间，符合临床认知。

3.3 训练稳定性与校准

所有指标在训练早期（2–4轮次）即收敛，十次重复实验的标准差随训练进程降低，证明方案稳健性。概率校准后，模型预测风险与真实发生率高度匹配；决策曲线分析表明在5–20%风险阈值范围内具有显著临床净获益。

3.4 不确定性指导临床分诊

熵分析显示，低不确定性样本（ deciles 1–5）错误率可忽略，而最高不确定性 decile（10）错误率达43%，支持对90%高置信度病例实现自动化诊断，剩余10%交由专家复核的混合工作流。

4 讨论

本研究通过早期融合混合架构有效整合CNN的局部细节与Transformer的全局上下文，在多类别卵巢超声分类中实现SOTA性能。方法学核心在于以患者级别交叉验证、超声特异性增强与过采样策略控制过拟合，同时引入校准、DCA、不确定性评估等部署导向指标，超越传统“唯精度论”框架。局限性包括单中心数据依赖性与未探索全部CNN-Transformer组合，未来需通过多中心外部验证深化泛化性证明。

在临床转化层面，模型需符合医疗器械软件（MDSW）监管要求（如欧盟MDR、美国FDA的SaMD指南），并建立AI治理框架（如模型监控、偏移检测、人机协同流程）。研究为卵巢超声AI提供了可复现的技术参考与临床整合路径，推动其向可靠、可审计的辅助诊断系统演进。

5 结论

早期融合混合CNN-Transformer模型在卵巢肿瘤超声多类别分类中展现出卓越性能与临床实用性。通过集成校准、可解释性与不确定性分析，本研究为AI驱动的高精度、可信赖卵巢癌诊断奠定了基础，有望优化临床决策流程，提升医疗资源分配效率，最终改善患者预后。

热点排行