OralTransNet：融合Transformer注意力与CNN特征的轻量化混合模型在口腔疾病精准诊断中的创新应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月03日 来源：Engineering Applications of Artificial Intelligence 7.5

编辑推荐：

　　【编辑推荐】针对口腔疾病(MOD)诊断中现有模型计算复杂度高、泛化性不足的问题，研究团队开发了结合CNN局部特征提取与Transformer全局建模的轻量化混合模型OralTransNet。该模型在MOD(99.03%)、口腔癌(97.83%)和组织病理学(94.23%)三组数据集上超越SOTA模型，参数仅4.12M、FLOPs低至1.21G，为资源受限环境提供可解释的实时诊断方案。

口腔疾病正成为全球公共卫生的重要挑战，其中口腔癌(OC)每年新增病例超50万例，位居全球癌症发病率第六位。传统诊断依赖活检等侵入性操作，而现有AI模型往往面临计算资源消耗大、缺乏多病种覆盖等瓶颈。尤其值得注意的是，当前深度学习模型在捕捉局部特征（如CNN）与全局上下文（如Transformer）的协同机制上尚未优化，且鲜有研究同时涵盖牙龈炎(GUM)、口腔溃疡(CaS)、扁平苔藓(OLP)等7类常见口腔疾病(MOD)的诊断。

针对这些挑战，研究人员在《Engineering Applications of Artificial Intelligence》发表的研究中，提出名为OralTransNet的创新混合架构。该模型通过MobileNet实现高效特征提取，引入ConvLSTM层整合时空特征，并创新性地设计带有Class Token的自定义Transformer编码器。研究采用三组异质性数据集验证：包含5143张临床图像的MOD数据集（7分类）、241张口腔癌图像（2分类）及5192张组织病理学切片（2分类），所有实验均在NVIDIA RTX 4060 GPU平台完成。

【关键技术方法】
研究采用多模态融合策略：1) 使用MobileNetV3作为基础特征提取器，利用其深度可分离卷积降低参数量；2) 通过ConvLSTM捕捉病灶的空间-时序演变特征；3) 设计可学习的Class Token层增强Transformer的类别区分能力；4) 结合Grad-CAM可视化实现模型可解释性。训练过程采用迁移学习与五折交叉验证。

【研究结果】

性能优势：在MOD数据集达到99.03%准确率，较ResNet-50提升2.17%，推理速度加快3.2倍；
轻量化特性：参数量(4.12M)仅为ViT-Base的6.8%，FLOPs(1.21G)比EfficientNet少41%；
跨模态泛化：在组织病理学数据(94.23%)表现优于纯CNN架构，证明其对成像差异的适应性；
可解释性：Grad-CAM热图精准定位癌变区域，与临床标注重合率达89.7%。

【结论与意义】
该研究首次实现CNN-Transformer混合架构在7类口腔疾病中的系统应用，其创新性体现在三方面：首先，通过MobileNet的深度可分离卷积与Transformer的交叉注意力机制协同，突破传统模型"局部-全局"特征融合的瓶颈；其次，1.21G FLOPs的设计使其可在智能手机等边缘设备部署，适合医疗资源匮乏地区；最后，多数据集验证表明模型对临床影像和组织病理学的双重适应性，为AI辅助病理诊断提供新范式。研究团队特别指出，未来将通过联邦学习进一步解决数据隐私问题，推动临床转化应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号