MRST:基于多模态图像融合和Swin Transformer的宫颈上皮内瘤变诊断模型

《Biomedical Signal Processing and Control》:MRST: Diagnostic model of cervical intraepithelial neoplasia based on multimodal image fusion and Swin Transformer

【字体: 时间:2025年10月17日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  基于多模态图像融合的残差Swin Transformer(MRST)模型在三级宫颈上皮内瘤变(CIN1-CIN3)诊断中取得92.67%的总体准确率,有效辅助临床诊断。

  
徐志扬|顾雪莲|关瑞|邹仁玲|褚胜轩|方青斌
上海科技大学健康科学与工程学院,上海,200093,中国

摘要

宫颈上皮内瘤变(CIN)是宫颈的癌前病变。利用深度学习技术识别和分类阴道镜图像中的CIN可以帮助诊断宫颈癌前病变并提高诊断准确性。本研究的目的是开发一种基于多模态图像融合的多模态残差Swin Transformer(MRST)网络模型,用于CIN1、CIN2和CIN3的三分类诊断。该模型包括两部分:图像预处理和CIN诊断。在图像预处理部分,使用多模态图像融合方法将原始图像处理成融合图像,以突出特征并作为分类网络的输入。在CIN诊断部分,使用Swin Transformer作为参考分类网络,结合具有通道注意力机制的卷积网络提供残差连接,以整合全局和局部特征。以阴道镜图像作为原始数据集,三分类CIN诊断的MRST整体准确率为92.67%。结果表明,所提出的MRST可以有效辅助CIN级别的诊断,具有重要的临床价值。

引言

宫颈癌是一种常见的恶性肿瘤,其发病率和死亡率在女性癌症中排名第四[1]。宫颈上皮内瘤变(CIN)是宫颈的癌前病变,其特征是细胞异常增生。及时筛查和治疗CIN可以有效预防宫颈癌[2]。根据病变程度,CIN分为三个级别:CIN1,也称为低级别鳞状上皮内病变(LSIL);以及CIN2/CIN3,也称为高级别鳞状上皮内病变(HSIL)[3]。CIN通常通过阴道镜图像进行诊断[2]。然而,阴道镜图像的诊断受到医生经验和能力的限制。此外,在大多数国家的低收入和贫困地区,专业人才较少,这阻碍了CIN的及时诊断[4]。
深度学习被广泛应用于医学图像诊断任务[5]、[6]、[7]、[8]。考虑到卷积神经网络(CNN)和Vision Transformer在图像特征提取方面的优异性能[9]、[10]、[11]、[12],一个合适的模型应该能够实现目标检测、图像分割、分类和识别阴道镜图像数据集。因此,使用深度学习模型辅助CIN诊断具有很好的可行性和重要的临床价值。
一些学者已经使用宫颈阴道镜图像训练深度学习模型以实现计算机辅助诊断[13]、[14]、[15]、[16]、[17]、[18]、[19]。例如,张等人[13]使用迁移学习技术和ImageNet及Kaggle的数据集对预训练的密集连接卷积网络DenseNet进行了微调。该模型以CIN2/CIN3的存在与否作为分类标准,达到了73.08%的准确率。宫城等人[14]使用310名患者的阴道镜图像数据构建了一个11层CNN模型,用于区分LSIL和更严重的鳞状上皮内病变(HSIL+),准确率为82.3%。Saini等人[15]构建了一个更高效的模型ColpoNet,使用美国国家癌症研究所的公共数据集进行训练,该模型在宫颈炎症/CIN1和CIN2/CIN3之间的分类准确率为81.35%。卢等人[16]使用残差神经网络ResNet计算每位患者的病变概率,然后结合临床特征构建了一个综合模型。该模型专注于两个二元分类任务:一般炎症与低级别或更严重鳞状上皮内病变(LSIL+)之间的分类,以及HSIL与HSIL+之间的分类,准确率分别为88.6%和80.7%。然而,这些模型都是根据二元分类标准对数据集进行划分的。由于阴道镜图像的数据量通常比计算机断层扫描和磁共振成像的医学图像少,并且容易受到设备使用、操作者技术技能、光照条件以及患者生理状态等因素的影响,因此它们往往包含过多的噪声或类别不平衡,导致特征提取困难[20]、[21]。现有的诊断模型难以实现基于三个分类标准的准确诊断。
为了解决上述问题,本研究创建了一个适用于CIN1、CIN2和CIN3三分类诊断的多模态残差Swin Transformer(MRST)模型。该模型使用基于多模态图像融合的新预处理方法去除噪声的影响,并采用具有卷积残差结构的Swin Transformer分类网络来避免类别不平衡和模型过拟合问题。模型分割和分类网络采用分阶段方法进行训练。MRST模型在阴道镜图像的三分类任务中取得了良好的结果,可以有效辅助CIN的诊断。

方法部分

方法论

MRST由图像预处理组件和CIN诊断组件组成,如图1所示。图像预处理组件生成同一图像的三种模式(原始图像、宫颈区域掩码和定向梯度直方图(HOG)),然后在通道维度上堆叠和融合这三种模式以准备融合图像。CIN诊断组件随后分析融合图像以预测诊断结果(CIN1、CIN2或CIN3)。为了提高分类

数据集和实验设置

实验中使用的阴道镜图像来自2019年11月至2023年10月上海长海医院妇产科门诊部的大约4500名患者。在数据准备阶段,系统地排除了图像模糊、病变可见性不佳或宫颈显示不完整的图像。经过这一严格的质量评估后,共有2325张图像被选用于后续分析。

结果与讨论

首先独立评估分割组件的性能,我们在验证集上评估了宫颈区域掩码网络的性能。该模型实现了0.8924的精确度、0.9037的召回率、0.8928的Dice系数和0.8734的IoU分数。这些结果表明,分割网络可以可靠地提取感兴趣区域并去除无关背景,从而为后续的多模态融合提供高质量的掩码。
MRST经历了

结论

总之,本研究建立了一个混合三分类网络模型MRST,用于阴道镜图像中CIN的分类,旨在辅助诊断。该模型使用多模态图像融合预处理方法,生成的融合图像作为分类网络的输入。分类模块基于Swin Transformer架构,并在卷积网络中以残差的形式结合局部特征。使用临床

CRediT作者贡献声明

徐志扬:撰写——原始草稿、验证、软件、方法论、调查、正式分析、概念化。顾雪莲:撰写——审稿与编辑、监督、资源管理、项目管理、概念化。关瑞:监督、资源管理、项目管理、数据管理、概念化。邹仁玲:监督、项目管理、概念化。褚胜轩:调查。方青斌:调查。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了江苏省科技项目 [资助编号 BE2023737]和浙江省医药健康科技项目 [资助编号 2019KY610]的支持。资助方未参与研究设计;未参与数据收集、分析或解释;未参与报告撰写;也未参与决定提交文章发表。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号