利用基于Transformer的分割技术和混合特征学习方法,对超声成像中的甲状腺结节进行自动化多类别分类

《Journal of Radiation Research and Applied Sciences》:Automated multi-class classification of thyroid nodules in ultrasound imaging using transformer-based segmentation and hybrid feature learning

【字体: 时间:2025年08月21日 来源:Journal of Radiation Research and Applied Sciences 2.5

编辑推荐:

  甲状腺结节超声图像自动分类研究提出并验证了端到端机器学习流程,采用Transformer分割模型(UNETR、Swin-UNet等)和混合放射学-深度特征(IC≥0.75筛选),通过多中心数据(2654例训练+873例外部验证)和XGBoost/Lasso优化,实现六类TI-RADS分类,外部准确率93.0%、AUC93.6%。模型性能与分割精度正相关,UNETR最优(Dice0.95),XGBoost+Lasso组合最佳。该方法具备临床可重复性和泛化性,为实时诊断系统开发提供可靠框架。

  本研究提出了一种全面的、端到端的机器学习框架,用于在超声图像中实现甲状腺结节的自动化多类别分类。该框架结合了基于Transformer的分割技术以及融合手工提取的放射组学特征和深度学习特征的方法,以提升临床诊断的准确性和可重复性。通过多中心数据集进行模型开发和外部验证,研究强调了在复杂临床环境中构建可靠、可解释的诊断系统的重要性。

### 甲状腺结节分类的挑战

在临床实践中,甲状腺结节是常见的疾病之一,超声检查因其无创性、实时反馈和可及性,已成为主要的诊断手段。然而,准确识别和分类甲状腺结节仍然面临诸多挑战。结节的形态、大小、回声特性以及位置的多样性,使得图像分割和诊断任务复杂化。此外,超声图像的高质量依赖于设备的差异、操作员的技能以及成像协议的不一致性,这些因素可能导致特征提取的不一致,从而影响模型性能。因此,开发一种能够处理这些异质性并提供稳定分类结果的系统至关重要。

### 分割模型的比较与选择

为了提高分割的准确性,研究中采用了四种先进的分割模型:UNETR、nnU-Net、Swin-UNet 和 UNet。这些模型分别代表了基于卷积神经网络(CNN)和基于Transformer的最新进展。其中,UNETR 通过将 Vision Transformer(ViT)模块嵌入到 U 型编码器-解码器结构中,能够有效捕捉长距离依赖关系,同时保留空间分辨率。Swin-UNet 则利用了分层的 Swin Transformer 结构和移位窗口机制,实现了高效的多尺度特征提取和定位。nnU-Net 是一种数据自适应框架,能够根据数据集的特性动态配置模型结构、预处理和后处理步骤,常在医学分割任务中表现优异。而经典的 UNet 虽然结构相对简单,但仍是分割任务的可靠基准模型,其编码器-解码器结构和跳跃连接有助于在不同分辨率下保留空间信息。

在训练过程中,所有模型均采用监督学习方式,使用专家手动标注的甲状腺结节作为训练数据。这些标注经过双重校验,以确保其准确性。数据集被划分为训练(70%)、验证(10%)和内部测试(20%)子集。为了增强模型的泛化能力,研究应用了多种数据增强策略,包括随机旋转、翻转、强度变化和弹性变形。所有模型均使用 Adam 优化器进行训练,初始学习率为 1e-4,批量大小为 8。训练过程中采用复合损失函数,包括 Dice 损失和二元交叉熵损失,以优化重叠准确性和像素级分类。

### 特征提取与选择

在分割完成后,研究从结节区域提取了两种类型的特征:手工放射组学特征和深度学习特征。手工放射组学特征基于标准的图像生物标志物标准化倡议(IBSI)指南,通过 SERA 平台提取了 215 个特征,包括 79 个一阶统计特征和 136 个高阶 3D 纹理特征。这些特征描述了结节的形状、大小和强度分布等属性。而深度学习特征则通过预训练的 Vision Transformer(ViT-B/16)模型提取,从分割区域中提取了 768 维的特征向量,这些特征能够捕捉高阶语义信息,包括上下文依赖和注意力机制。

为了确保特征的可重复性,研究对所有特征进行了 ICC(组内相关系数)分析。只有 ICC 值 ≥ 0.75 的特征被保留用于后续分析。此外,低方差(方差 < 0.01)和高度共线(Pearson 相关系数 r > 0.9)的特征也被排除,以减少冗余并提高模型的稳定性。随后,研究应用了三种特征选择方法:主成分分析(PCA)、最小绝对值收缩和选择算子(Lasso)以及互信息(Mutual Information, MI)。这些方法分别用于评估其对分类性能和模型可解释性的影响。

### 分类模型的性能评估

在特征选择之后,研究使用了三种机器学习分类器:XGBoost、Random Forest 和 TabTransformer。其中,XGBoost 以其在处理异构特征分布和不平衡数据集方面的强大能力而被选中。TabTransformer 则因其在处理高维结构化数据中的注意力机制而被纳入研究,以评估其在复杂特征交互中的表现。Random Forest 作为经典的集成学习方法,因其良好的可解释性和在医学图像任务中的稳定表现而被采用。这些分类器分别应用于手工放射组学特征、深度学习特征以及两者的组合,以评估不同特征类型的分类效果。

在训练和验证阶段,研究采用了分层交叉验证策略,以确保模型在各类别中的分布均衡。同时,由于 TI-RADS 分类中存在明显的类别不平衡现象,研究应用了 SMOTE(合成少数类过采样技术)来平衡训练数据。SMOTE 通过在少数类样本之间进行插值生成新的样本,从而缓解分类偏差。最终,所有模型均在独立的外部测试集上进行了评估,以测试其在未见数据上的泛化能力。结果显示,所有模型均表现出良好的泛化能力,其性能下降幅度通常在 2% 到 5% 之间,这表明模型在训练和测试数据之间保持了较高的稳定性。

### 性能评估结果

在分割性能方面,UNETR 和 Swin-UNet 表现出显著的优势,其 Dice 系数(DSC)和 Jaccard 指数均高于 UNet 和 nnU-Net。UNETR 在训练数据上的 DSC 为 0.95 ± 0.01,而在外部测试集上的 DSC 为 0.93,表明其在不同数据集上的表现一致。相比之下,UNet 在外部测试集上的表现显著下降,其 DSC 仅为 0.89,这反映了其在跨机构泛化方面的局限性。此外,95th 百分位 Hausdorff 距离作为边界准确性的指标,UNETR 的表现也优于其他模型,表明其在边界提取方面具有更高的精确性。

在分类性能方面,研究发现,基于 Lasso 特征选择的 XGBoost 模型在外部测试集上取得了最佳结果,其准确率为 93.0%,AUC 为 93.6%,召回率为 92.0%。而基于深度学习特征的 XGBoost 模型则取得了 92.8% 的准确率,93.5% 的 AUC 和 91.8% 的召回率。这表明,无论是手工提取的放射组学特征还是深度学习特征,只要结合合适的特征选择和分类器,都能实现较高的分类准确率。然而,放射组学特征在外部数据上的表现略优于深度学习特征,这可能与放射组学特征在临床实践中的可解释性有关。

在所有分类器中,XGBoost 几乎在所有配置中都表现出最佳性能,其稳定性、准确性和处理复杂特征交互的能力使其成为该任务的首选。TabTransformer 在某些配置中也表现出竞争力,尤其是在与 Lasso 或 MI 配合使用时,但其整体性能仍略逊于 XGBoost。Random Forest 在所有分类器中表现最差,尽管其在某些情况下仍能提供可接受的准确率,但其在 AUC 和召回率上的表现通常比其他模型低 1% 到 2%。

### 特征选择策略的比较

在特征选择策略方面,Lasso 显示出最强的性能,其生成的稀疏特征集能够有效捕捉关键信息,同时减少冗余。Lasso 在所有分类器配置中均表现最佳,这可能与其在处理高维数据时的正则化能力有关。PCA 在某些情况下也表现出一定的效果,但其将原始特征转换为抽象成分的过程可能削弱了特征的临床相关性。MI 作为过滤方法,能够评估每个特征与类别标签之间的依赖关系,其在某些 TabTransformer 配置中表现出良好的性能,但仍不如 Lasso。这些结果表明,特征选择方法对分类性能具有显著影响,而 Lasso 在此任务中具有明显的优势。

### 临床意义与模型优化

本研究的结果不仅展示了模型在分割和分类任务中的卓越性能,还强调了分割质量对最终分类结果的重要性。研究发现,分割质量较低的模型(如 UNet)在分类性能上明显落后于分割质量较高的模型(如 UNETR 和 nnU-Net)。这表明,分割的精确性是实现准确分类的关键因素。此外,研究还通过 SHAP 分析揭示了不同类别中最具影响力的放射组学特征,这为未来模型的改进提供了方向。

在临床应用方面,本研究提出的框架展示了其在多中心数据集上的泛化能力,这对于开发适用于不同医疗环境的自动化诊断系统具有重要意义。然而,研究也指出,当前模型在某些中间类别(如 TR3、TR4 和 TR5)上的分类效果仍有提升空间。未来的工作可以探索更多元化的特征提取方法,如结合临床和生化指标,以提高模型的多模态预测能力。此外,研究还提出了优化模型架构的方向,如采用轻量级分割模型(如 MobileUNet)和量化技术,以降低计算需求,提高模型在实际临床环境中的可行性。

### 未来展望

为了进一步提升模型的临床实用性,研究计划优化模型架构,探索更高效的分割方法,以减少计算资源的需求。同时,研究也在考虑基于服务器或边缘计算的解决方案,以实现更高效的图像处理和实时诊断。未来,研究将进一步评估模型在常见硬件(如中端 GPU 和现代 CPU)上的推理时间,以确保其在实际医疗场景中的可操作性。此外,研究还计划引入临床数据,以构建更全面的多模态诊断系统,从而提高模型的预测能力和临床相关性。

总之,本研究提出了一种全面且具有临床价值的自动化框架,能够在多中心数据集上实现甲状腺结节的准确分类。该框架结合了基于 Transformer 的分割模型和多种特征选择方法,展示了在医学图像分析中的潜力。未来的工作将继续优化模型性能,探索其在临床环境中的应用,并进一步提升其可解释性和泛化能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号