融合CNN与ViT的CVT-HNet模型：提升肛瘘型克罗恩病MRI图像识别准确性的创新研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月30日 来源：BMC Medical Imaging 2.9

编辑推荐：

　　针对肛瘘型克罗恩病(PFCD)与隐窝腺源性肛瘘(CAF)鉴别诊断效率低下的临床难题，研究人员创新性地提出CVT-HNet融合模型，通过整合MobileNetV2的局部特征提取与Vision Transformer(ViT)的全局依赖捕捉能力，结合坐标注意力(CA)机制，在An-FisMRI400数据集上实现80.66%的准确率，其患者级诊断准确率(92.5%)超越人工评估，为临床早期精准干预提供了高效AI工具。

肛瘘型克罗恩病(PFCD)作为克罗恩病(CD)最具特征的并发症，43%的CD患者可能受累，但其早期鉴别诊断面临巨大挑战——10%的病例初发时仅表现为肛瘘症状，易被误诊为隐窝腺源性肛瘘(CAF)，导致肛门结构不可逆损伤。传统依赖医生手动分析盆腔MRI的方法虽准确但效率低下，而现有计算机视觉技术多基于卷积神经网络(CNN)，难以捕捉病灶与周围组织的长程依赖关系。

针对这一临床痛点，福州大学物理与信息工程学院联合中山大学附属第六医院的研究团队在《BMC Medical Imaging》发表创新成果，提出CVT-HNet融合模型。该研究通过整合CNN的局部特征提取优势与Vision Transformer(ViT)的全局建模能力，构建了包含五层特征提取的级联架构：前两层采用嵌入坐标注意力(CA)机制的改进型MobileNetV2模块(MV2-CA)，后三层交替堆叠MV2-CA与Transformer编码器模块。关键技术包括：1)采用高斯去噪与对比度受限自适应直方图均衡化(CLAHE)预处理8,666例MRI数据；2)创新设计h-swish激活函数替代ReLU6；3)通过深度可分离卷积(DW)降低计算复杂度；4)基于160例PFCD与160例CAF患者数据构建An-FisMRI400数据集进行8:1:1划分验证。

研究结果显示：

模型性能对比：CVT-HNet在图像级测试集达到80.66%准确率，较纯Transformer架构模型(ViT/Swin-Transformer)提升5-7%，参数量仅5M。患者级诊断中，当设定阈值0.66时，准确率高达92.5%(AUC=0.958)，超越资深医生水平(90%)。
模块有效性验证：

CA机制使准确率提升2%而参数量几乎不变
DW卷积较标准卷积减少70%计算量(FLOPs=1.44G)
Transformer编码器采用"1-2-1"堆叠系数时效果最优

临床适用性：外部验证显示模型在广州番禺中心医院等机构的54例新数据中保持稳定性能，证实其强泛化能力。热图分析表明CVT-HNet能更聚焦病灶区域，如图1所示，相比离散关注点的纯Transformer模型，其注意力分布更符合临床需求。

这项研究首次将CNN-ViT混合架构应用于肛瘘鉴别诊断，通过级联式特征融合策略解决了医学图像中空间分辨率与高维语义信息的兼容难题。其临床意义在于：1)为PFCD早期诊断提供敏感度达85%、特异度100%的自动化工具；2)轻量化设计(5M参数)便于嵌入式设备部署；3)建立的An-FisMRI400数据集为后续研究提供基准。局限性包括样本量较小(400例)和未纳入动态增强MRI序列，未来可通过多中心合作进一步优化模型鲁棒性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号