基于轻量化多尺度视觉Transformer（LMS-ViT）的智能手机实时皮肤癌检测系统研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月04日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　本文推荐一款创新性皮肤癌检测系统LMS-ViT（轻量化多尺度视觉Transformer），通过融合HAM10000皮肤镜图像与智能手机拍摄图像，采用多尺度注意力机制突破传统CNN模型在细粒度特征提取和移动端部署的局限。该系统实现90%分类准确率（较CNN提升18%），计算成本降低30%，并成功集成至Android平台，为皮肤癌早期筛查提供高精度、低延迟的移动端解决方案。

1 引言

皮肤癌作为全球高发恶性肿瘤，其早期诊断面临传统检测方法依赖专业设备、CNN模型在移动端应用存在局限等挑战。研究团队提出LMS-ViT模型，通过Vision Transformer架构创新解决CNN固定卷积核尺寸导致的细粒度特征捕捉不足问题。该系统整合临床级HAM10000数据集（含10,015张皮肤镜图像）与PAD-UFES-20智能手机拍摄图像，采用对比学习与直方图均衡化等域适应技术，有效弥合专业设备与移动端图像的诊断鸿沟。

2 相关工作

现有研究存在显著缺陷：ANN模型准确率不足（No和Singhal，2025）、KNN算法忽略图像特征（Elgamal，2013）、智能手机应用仅支持单一癌种（Kassianos等，2015）。相比之下，LMS-ViT通过多尺度特征融合模块同步捕获病灶全局结构与局部纹理，在Vasc和Nv等复杂类别中F1-score提升至1.01。实验数据显示，其参数量较EfficientNet减少30%，在Honor 5X（Android 5.1）设备上实现200ms级实时推理。

3 研究方法

3.1 模型架构

输入图像I∈?^H×W×C被分割为N=HW/P²个图像块，通过线性投影嵌入特征空间：

Z₀=[x_class;x_p¹E;...x_p^NE]+E_pos

其中位置编码E_pos保留空间信息。模型采用分级式Transformer编码器，在4×4、8×8、16×16三个尺度提取特征，通过跨尺度注意力权重矩阵实现特征交互。

3.2 数据增强

针对智能手机图像光照不均问题，采用自适应伽马校正（γ∈[0.8,1.2]）与随机色彩抖动（ΔRGB≤15%）。特别设计的病灶中心裁剪算法确保关键区域保留率＞95%，配合MixUp数据增强（λ=0.4）提升模型泛化能力。

3.3 移动端优化

通过TensorRT将模型量化为INT8格式，推理时内存占用降至38MB。Android端采用Camera2 API实现4K@30fps实时取景，结合Grad-CAM可视化技术生成热力图解释诊断依据。

4 实验结果

在7类皮肤病变测试中：

•
准确率：LMS-ViT达91% vs CNN 75%（p<0.01）
•
特异性：BCC识别率提升7%（0.65→0.72）
•
计算效率：FLOPs降低至2.1G，为ResNet-50的1/3

典型失败案例集中于直径＜3mm的血管性病灶（Vasc），主要源于训练数据样本不足（仅占总数据1.2%）。模型对智能手机逆光拍摄图像的分类准确率下降12.7%，揭示光照条件对移动端诊断的关键影响。

5 结论与展望

LMS-ViT首次实现Transformer架构在移动端皮肤癌诊断的落地应用，通过病灶多尺度表征学习与轻量化设计，在保持90%准确率的同时满足移动端实时性要求。未来计划整合ISIC数据集扩大病种覆盖，并开发iOS版本实现跨平台部署。该研究为AI辅助诊断（AIAD）系统在基层医疗的应用提供重要技术范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号