OralTransNet:融合Transformer注意力与CNN特征的轻量化混合模型在口腔疾病精准诊断中的创新应用

【字体: 时间:2025年07月03日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  【编辑推荐】针对口腔疾病(MOD)诊断中现有模型计算复杂度高、泛化性不足的问题,研究团队开发了结合CNN局部特征提取与Transformer全局建模的轻量化混合模型OralTransNet。该模型在MOD(99.03%)、口腔癌(97.83%)和组织病理学(94.23%)三组数据集上超越SOTA模型,参数仅4.12M、FLOPs低至1.21G,为资源受限环境提供可解释的实时诊断方案。

  

口腔疾病正成为全球公共卫生的重要挑战,其中口腔癌(OC)每年新增病例超50万例,位居全球癌症发病率第六位。传统诊断依赖活检等侵入性操作,而现有AI模型往往面临计算资源消耗大、缺乏多病种覆盖等瓶颈。尤其值得注意的是,当前深度学习模型在捕捉局部特征(如CNN)与全局上下文(如Transformer)的协同机制上尚未优化,且鲜有研究同时涵盖牙龈炎(GUM)、口腔溃疡(CaS)、扁平苔藓(OLP)等7类常见口腔疾病(MOD)的诊断。

针对这些挑战,研究人员在《Engineering Applications of Artificial Intelligence》发表的研究中,提出名为OralTransNet的创新混合架构。该模型通过MobileNet实现高效特征提取,引入ConvLSTM层整合时空特征,并创新性地设计带有Class Token的自定义Transformer编码器。研究采用三组异质性数据集验证:包含5143张临床图像的MOD数据集(7分类)、241张口腔癌图像(2分类)及5192张组织病理学切片(2分类),所有实验均在NVIDIA RTX 4060 GPU平台完成。

【关键技术方法】
研究采用多模态融合策略:1) 使用MobileNetV3作为基础特征提取器,利用其深度可分离卷积降低参数量;2) 通过ConvLSTM捕捉病灶的空间-时序演变特征;3) 设计可学习的Class Token层增强Transformer的类别区分能力;4) 结合Grad-CAM可视化实现模型可解释性。训练过程采用迁移学习与五折交叉验证。

【研究结果】

  1. 性能优势:在MOD数据集达到99.03%准确率,较ResNet-50提升2.17%,推理速度加快3.2倍;
  2. 轻量化特性:参数量(4.12M)仅为ViT-Base的6.8%,FLOPs(1.21G)比EfficientNet少41%;
  3. 跨模态泛化:在组织病理学数据(94.23%)表现优于纯CNN架构,证明其对成像差异的适应性;
  4. 可解释性:Grad-CAM热图精准定位癌变区域,与临床标注重合率达89.7%。

【结论与意义】
该研究首次实现CNN-Transformer混合架构在7类口腔疾病中的系统应用,其创新性体现在三方面:首先,通过MobileNet的深度可分离卷积与Transformer的交叉注意力机制协同,突破传统模型"局部-全局"特征融合的瓶颈;其次,1.21G FLOPs的设计使其可在智能手机等边缘设备部署,适合医疗资源匮乏地区;最后,多数据集验证表明模型对临床影像和组织病理学的双重适应性,为AI辅助病理诊断提供新范式。研究团队特别指出,未来将通过联邦学习进一步解决数据隐私问题,推动临床转化应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号