一种基于Segment Anything模型的轻量级分割模型,用于舌部图像的分割

《Engineering Science and Technology, an International Journal》:A lightweight segmentation model based on Segment Anything Model for tongue image segmentation

【字体: 时间:2025年09月24日 来源:Engineering Science and Technology, an International Journal 5.1

编辑推荐:

  提出基于Segment Anything Model(SAM)的轻量级舌图像分割模型TongueSAM_Lite,通过知识蒸馏和参数高效微调优化模型,采用YOLOX自动生成目标框替代手动标注,实验证明模型在三个数据集上mIoU分别达到96.48%、98.36%、97.53%,较原SAM模型模型大小减少42.7%,推理时间缩短45.43%。

  在现代医学技术的不断发展中,舌诊作为中医诊断的重要手段,正逐渐向智能化和自动化方向迈进。舌象图像分割作为舌诊分析的基础环节,其准确性和效率直接关系到中医智能诊断系统的整体性能。随着深度学习技术的广泛应用,越来越多的研究致力于开发高效、精准的舌象图像分割模型,以应对实际应用中复杂的图像背景和多样的数据分布问题。

当前,舌象图像分割面临诸多挑战。首先,舌象图像具有高度的形态和色彩复杂性,使得传统的图像分割方法难以准确提取舌体区域。其次,大多数现有的分割模型依赖于特定领域的数据集进行训练,这在面对不同光照条件、背景干扰以及舌象特征变化时,往往会导致模型性能下降。此外,许多基于深度学习的模型在实际应用中仍需人工标注数据,这不仅增加了工作负担,还限制了模型的自动化程度。因此,如何构建一个轻量级、高效且适用于复杂现实场景的舌象图像分割模型,成为该领域亟待解决的关键问题。

为了解决上述问题,本文提出了一种名为TongueSAM_Lite的轻量级自动舌象图像分割模型。该模型基于Segment Anything Model(SAM)的架构,并通过知识蒸馏和参数高效的微调策略,对SAM中的图像编码器进行了优化。同时,引入了YOLOX为基础的自动Box-prompt生成器,以实现端到端的自动化分割流程,无需依赖人工标注。这些改进不仅提升了模型的推理速度,还显著降低了计算资源的需求,使得TongueSAM_Lite在保持高分割精度的同时,具备更强的泛化能力和更广泛的应用前景。

在模型设计方面,TongueSAM_Lite采用了混合架构的轻量级图像编码器。与原始SAM模型中使用的Vision Transformer(ViT)相比,该编码器通过替换部分高参数模块,结合知识蒸馏技术,实现了更高效的特征提取能力。这种设计策略不仅减少了模型的计算负担,还保留了其在复杂场景下的识别能力。此外,模型还引入了针对舌象图像的专用提示机制,使得模型在处理舌象图像时能够更准确地捕捉关键特征,从而提升分割效果。

为了验证TongueSAM_Lite的有效性,本文在三个不同的数据集上进行了广泛的实验。实验结果表明,与原始SAM模型相比,TongueSAM_Lite在模型体积上减少了42.7%,推理时间缩短至45.43%,同时保持了接近完整的分割精度。在三个数据集上的平均交并比(mIoU)分别达到了96.48%、98.36%和97.53%,优于当前主流的分割方法。这些数据充分证明了TongueSAM_Lite在准确率、速度和泛化能力之间的良好平衡,为中医舌诊的智能化发展提供了新的解决方案。

在实验过程中,我们还对YOLOX作为提示生成器的性能进行了深入分析。实验结果表明,基于YOLOX的提示生成器在生成舌象图像的边界框方面表现出色,能够有效替代传统的人工标注方式。这种自动化提示生成机制不仅提高了模型的训练效率,还增强了其在实际应用中的适应能力。此外,通过引入轻量级的图像编码器和优化的提示机制,TongueSAM_Lite能够在保持高性能的同时,显著降低计算资源的消耗,使其更适用于移动设备和边缘计算环境。

为了进一步提升模型的泛化能力,本文还设计了一种跨域迭代分割框架。该框架通过结合源域和目标域的样本,实现对舌象图像分割任务的优化。与传统的跨域分割方法相比,该框架无需依赖于高度相关的目标域数据,从而降低了数据获取的难度。同时,该框架在保持模型性能的前提下,显著提高了其在不同背景和光照条件下的适应能力,为中医舌诊的智能化提供了更加灵活和高效的解决方案。

在实际应用中,TongueSAM_Lite不仅能够实现对舌象图像的高效分割,还能与中医诊断系统无缝集成。通过自动化的分割流程,该模型能够减少人工干预,提高诊断效率。此外,其轻量级的设计使得模型可以在资源受限的设备上运行,从而拓展了其在临床实践中的应用场景。例如,在移动医疗设备、远程诊断系统以及家庭健康监测平台中,TongueSAM_Lite都展现出了良好的适应性和实用性。

为了确保模型的稳定性和可靠性,本文还对实验环境和参数配置进行了详细说明。所有实验均在统一的硬件和软件平台上进行,以保证结果的可比性。同时,通过调整不同的参数配置,我们找到了最优的超参数组合,使得模型在不同数据集上的表现更加均衡。这些实验配置的详细说明为后续研究提供了重要的参考依据。

在实验数据和评估标准方面,本文采用了多种评估指标,包括mIoU、Dice系数以及分割速度等。通过在三个不同数据集上的实验,我们验证了TongueSAM_Lite在多种场景下的有效性。其中,两个数据集为公开数据集,第三个数据集为自行采集的数据,涵盖了不同的舌象特征和背景条件。这种多样化的数据集选择有助于全面评估模型的性能,并确保其在实际应用中的广泛适用性。

综上所述,TongueSAM_Lite的提出为中医舌诊的智能化发展带来了新的突破。通过引入自动化的提示生成机制和轻量级的图像编码器,该模型不仅提升了分割效率,还增强了模型的泛化能力。实验结果表明,TongueSAM_Lite在多个关键指标上均优于现有方法,为中医舌诊的自动化和智能化提供了有力的技术支持。未来,随着模型的不断优化和应用场景的拓展,TongueSAM_Lite有望在更广泛的领域中发挥重要作用,推动中医智能诊断技术的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号