
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于轻量化多尺度视觉Transformer(LMS-ViT)的智能手机实时皮肤癌检测系统研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
本文推荐一款创新性皮肤癌检测系统LMS-ViT(轻量化多尺度视觉Transformer),通过融合HAM10000皮肤镜图像与智能手机拍摄图像,采用多尺度注意力机制突破传统CNN模型在细粒度特征提取和移动端部署的局限。该系统实现90%分类准确率(较CNN提升18%),计算成本降低30%,并成功集成至Android平台,为皮肤癌早期筛查提供高精度、低延迟的移动端解决方案。
皮肤癌作为全球高发恶性肿瘤,其早期诊断面临传统检测方法依赖专业设备、CNN模型在移动端应用存在局限等挑战。研究团队提出LMS-ViT模型,通过Vision Transformer架构创新解决CNN固定卷积核尺寸导致的细粒度特征捕捉不足问题。该系统整合临床级HAM10000数据集(含10,015张皮肤镜图像)与PAD-UFES-20智能手机拍摄图像,采用对比学习与直方图均衡化等域适应技术,有效弥合专业设备与移动端图像的诊断鸿沟。
现有研究存在显著缺陷:ANN模型准确率不足(No和Singhal,2025)、KNN算法忽略图像特征(Elgamal,2013)、智能手机应用仅支持单一癌种(Kassianos等,2015)。相比之下,LMS-ViT通过多尺度特征融合模块同步捕获病灶全局结构与局部纹理,在Vasc和Nv等复杂类别中F1-score提升至1.01。实验数据显示,其参数量较EfficientNet减少30%,在Honor 5X(Android 5.1)设备上实现200ms级实时推理。
输入图像I∈?H×W×C被分割为N=HW/P2个图像块,通过线性投影嵌入特征空间:
Z0=[xclass;xp1E;...xpNE]+Epos
其中位置编码Epos保留空间信息。模型采用分级式Transformer编码器,在4×4、8×8、16×16三个尺度提取特征,通过跨尺度注意力权重矩阵实现特征交互。
针对智能手机图像光照不均问题,采用自适应伽马校正(γ∈[0.8,1.2])与随机色彩抖动(ΔRGB≤15%)。特别设计的病灶中心裁剪算法确保关键区域保留率>95%,配合MixUp数据增强(λ=0.4)提升模型泛化能力。
通过TensorRT将模型量化为INT8格式,推理时内存占用降至38MB。Android端采用Camera2 API实现4K@30fps实时取景,结合Grad-CAM可视化技术生成热力图解释诊断依据。
在7类皮肤病变测试中:
准确率:LMS-ViT达91% vs CNN 75%(p<0.01)
特异性:BCC识别率提升7%(0.65→0.72)
计算效率:FLOPs降低至2.1G,为ResNet-50的1/3
典型失败案例集中于直径<3mm的血管性病灶(Vasc),主要源于训练数据样本不足(仅占总数据1.2%)。模型对智能手机逆光拍摄图像的分类准确率下降12.7%,揭示光照条件对移动端诊断的关键影响。
LMS-ViT首次实现Transformer架构在移动端皮肤癌诊断的落地应用,通过病灶多尺度表征学习与轻量化设计,在保持90%准确率的同时满足移动端实时性要求。未来计划整合ISIC数据集扩大病种覆盖,并开发iOS版本实现跨平台部署。该研究为AI辅助诊断(AIAD)系统在基层医疗的应用提供重要技术范式。
生物通微信公众号
知名企业招聘