基于轻量化多尺度视觉Transformer(LMS-ViT)的智能手机实时皮肤癌检测系统研究

【字体: 时间:2025年09月04日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本文推荐一款创新性皮肤癌检测系统LMS-ViT(轻量化多尺度视觉Transformer),通过融合HAM10000皮肤镜图像与智能手机拍摄图像,采用多尺度注意力机制突破传统CNN模型在细粒度特征提取和移动端部署的局限。该系统实现90%分类准确率(较CNN提升18%),计算成本降低30%,并成功集成至Android平台,为皮肤癌早期筛查提供高精度、低延迟的移动端解决方案。

  

1 引言

皮肤癌作为全球高发恶性肿瘤,其早期诊断面临传统检测方法依赖专业设备、CNN模型在移动端应用存在局限等挑战。研究团队提出LMS-ViT模型,通过Vision Transformer架构创新解决CNN固定卷积核尺寸导致的细粒度特征捕捉不足问题。该系统整合临床级HAM10000数据集(含10,015张皮肤镜图像)与PAD-UFES-20智能手机拍摄图像,采用对比学习与直方图均衡化等域适应技术,有效弥合专业设备与移动端图像的诊断鸿沟。

2 相关工作

现有研究存在显著缺陷:ANN模型准确率不足(No和Singhal,2025)、KNN算法忽略图像特征(Elgamal,2013)、智能手机应用仅支持单一癌种(Kassianos等,2015)。相比之下,LMS-ViT通过多尺度特征融合模块同步捕获病灶全局结构与局部纹理,在Vasc和Nv等复杂类别中F1-score提升至1.01。实验数据显示,其参数量较EfficientNet减少30%,在Honor 5X(Android 5.1)设备上实现200ms级实时推理。

3 研究方法

3.1 模型架构

输入图像I∈?H×W×C被分割为N=HW/P2个图像块,通过线性投影嵌入特征空间:

Z0=[xclass;xp1E;...xpNE]+Epos

其中位置编码Epos保留空间信息。模型采用分级式Transformer编码器,在4×4、8×8、16×16三个尺度提取特征,通过跨尺度注意力权重矩阵实现特征交互。

3.2 数据增强

针对智能手机图像光照不均问题,采用自适应伽马校正(γ∈[0.8,1.2])与随机色彩抖动(ΔRGB≤15%)。特别设计的病灶中心裁剪算法确保关键区域保留率>95%,配合MixUp数据增强(λ=0.4)提升模型泛化能力。

3.3 移动端优化

通过TensorRT将模型量化为INT8格式,推理时内存占用降至38MB。Android端采用Camera2 API实现4K@30fps实时取景,结合Grad-CAM可视化技术生成热力图解释诊断依据。

4 实验结果

在7类皮肤病变测试中:

  • 准确率:LMS-ViT达91% vs CNN 75%(p<0.01)

  • 特异性:BCC识别率提升7%(0.65→0.72)

  • 计算效率:FLOPs降低至2.1G,为ResNet-50的1/3

典型失败案例集中于直径<3mm的血管性病灶(Vasc),主要源于训练数据样本不足(仅占总数据1.2%)。模型对智能手机逆光拍摄图像的分类准确率下降12.7%,揭示光照条件对移动端诊断的关键影响。

5 结论与展望

LMS-ViT首次实现Transformer架构在移动端皮肤癌诊断的落地应用,通过病灶多尺度表征学习与轻量化设计,在保持90%准确率的同时满足移动端实时性要求。未来计划整合ISIC数据集扩大病种覆盖,并开发iOS版本实现跨平台部署。该研究为AI辅助诊断(AIAD)系统在基层医疗的应用提供重要技术范式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号