
-
生物通官微
陪你抓住生命科技
跳动的脉搏
OralTransNet:融合Transformer注意力与CNN特征的轻量化混合模型在口腔疾病精准诊断中的创新应用
【字体: 大 中 小 】 时间:2025年07月03日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
【编辑推荐】针对口腔疾病(MOD)诊断中现有模型计算复杂度高、泛化性不足的问题,研究团队开发了结合CNN局部特征提取与Transformer全局建模的轻量化混合模型OralTransNet。该模型在MOD(99.03%)、口腔癌(97.83%)和组织病理学(94.23%)三组数据集上超越SOTA模型,参数仅4.12M、FLOPs低至1.21G,为资源受限环境提供可解释的实时诊断方案。
口腔疾病正成为全球公共卫生的重要挑战,其中口腔癌(OC)每年新增病例超50万例,位居全球癌症发病率第六位。传统诊断依赖活检等侵入性操作,而现有AI模型往往面临计算资源消耗大、缺乏多病种覆盖等瓶颈。尤其值得注意的是,当前深度学习模型在捕捉局部特征(如CNN)与全局上下文(如Transformer)的协同机制上尚未优化,且鲜有研究同时涵盖牙龈炎(GUM)、口腔溃疡(CaS)、扁平苔藓(OLP)等7类常见口腔疾病(MOD)的诊断。
针对这些挑战,研究人员在《Engineering Applications of Artificial Intelligence》发表的研究中,提出名为OralTransNet的创新混合架构。该模型通过MobileNet实现高效特征提取,引入ConvLSTM层整合时空特征,并创新性地设计带有Class Token的自定义Transformer编码器。研究采用三组异质性数据集验证:包含5143张临床图像的MOD数据集(7分类)、241张口腔癌图像(2分类)及5192张组织病理学切片(2分类),所有实验均在NVIDIA RTX 4060 GPU平台完成。
【关键技术方法】
研究采用多模态融合策略:1) 使用MobileNetV3作为基础特征提取器,利用其深度可分离卷积降低参数量;2) 通过ConvLSTM捕捉病灶的空间-时序演变特征;3) 设计可学习的Class Token层增强Transformer的类别区分能力;4) 结合Grad-CAM可视化实现模型可解释性。训练过程采用迁移学习与五折交叉验证。
【研究结果】
【结论与意义】
该研究首次实现CNN-Transformer混合架构在7类口腔疾病中的系统应用,其创新性体现在三方面:首先,通过MobileNet的深度可分离卷积与Transformer的交叉注意力机制协同,突破传统模型"局部-全局"特征融合的瓶颈;其次,1.21G FLOPs的设计使其可在智能手机等边缘设备部署,适合医疗资源匮乏地区;最后,多数据集验证表明模型对临床影像和组织病理学的双重适应性,为AI辅助病理诊断提供新范式。研究团队特别指出,未来将通过联邦学习进一步解决数据隐私问题,推动临床转化应用。
生物通微信公众号
知名企业招聘