基于轻量化Swin-Transformer的容积旋转调强放疗患者特异性剂量预测创新方法

【字体: 时间:2025年09月19日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本综述提出了一种创新的轻量化深度学习框架STQA(Swin Transformer-based Quality Assurance),通过整合分层空间特征学习与自适应局部-全局注意力机制,显著提升了容积旋转调强放疗(VMAT)患者特异性质量保证(PSQA)中的三维剂量预测精度。该方法采用移位窗口自注意力(SW-MSA)与残差网络(ResNet)的混合架构,在减少40%参数的同时保持空间分辨率,实现了95.43%的伽马通过率(GPR)和0.978的结构相似性指数(SSIM),为临床放疗QA工作流程提供了高效精准的解决方案。

  

1 引言

容积旋转调强放疗(VMAT)作为精准放疗的核心技术,通过动态多叶光栅(MLC)调制与机架旋转的同步实现优异的剂量适形性。然而这种技术复杂性也加大了对剂量分布真实性和可交付性验证的需求。患者特异性质量保证(PSQA)作为重要的临床安全措施,被美国医学物理学家协会(AAPM)强烈推荐以确保VMAT剂量精度和患者安全。传统PSQA工作流程依赖二极管阵列、电离室和放射胶片等测量设备,但物理测量方法耗时费力,会延迟治疗开始时间并降低放疗服务效率。

过去十年中,机器学习(ML)推动了PSQA领域的进步,特别是在伽马通过率(GPR)预测方面。早期ML方法包括用于二元分类的Lasso正则化泊松回归、VMAT计划的回归/分类模型、用于剂量预测的人工神经网络(ANN)以及特征工程支持向量机,这些方法取得了中等成功,但因依赖手动特征而在准确性和临床适用性方面面临局限。深度学习(DL)的出现通过卷积神经网络(CNN)的自动分层特征提取彻底改变了这一领域。关键创新包括用于前列腺癌PSQA的CNN架构、超越领域专家系统的迁移学习增强VGG-16模型、基于通量图的误差检测框架、用于EPID到剂量转换的GANs以及基于日志文件的通量建模。通过消除手动特征工程并实现通过原始数据抽象的端到端预测,DL方法相比传统ML方法显著提高了预测准确性和临床效用,建立了PSQA优化的范式转变。

然而,对现有方法学的批判性分析揭示了临床实施ML/DL-based PSQA模型需要注意的三个基本局限:首先,主要的GPR评估范式未能建立空间剂量分布特征与验证结果之间的定量关系,特别是在解剖复杂部位;其次,大多数模型依赖2D平面剂量表示,本质上无法捕捉VMAT动态交付固有的3D空间调制特性;第三,虽然CNN擅长局部特征提取,但其对下采样操作的依赖牺牲了空间分辨率和局部细节保存,卷积核的固有局部性进一步限制了全局上下文意识和长程空间关系建模——这些对整体剂量分布分析至关重要。

Transformer在自然语言处理中的显著成功推动了其在计算机视觉中的适应,利用全局自注意力机制克服CNN固有的局部归纳偏差。Kolesnikov等人开创了这一转变,开发了视觉Transformer(ViT),通过基于补丁的序列处理实现了最先进的图像识别。Zeng等人的近期工作展示了将Transformer与改进的U-Net架构集成的混合网络,用于预测PSQA中测量引导的容积剂量,实现了预测剂量与临床剂量分布之间空间剂量差异的定量分析。然而,后续研究揭示了纯Transformer架构在视觉任务中的关键局限,特别是其在密集预测任务中局部特征提取能力不足。这一局限推动了通过串行(如TransUNet)或并行(如TransFuse)配置结合CNN和Transformer编码器的混合架构,以协同全局上下文建模与局部特征学习。同时,增强变体如Swin Transformer结合了分层移位窗口机制,在像素级预测任务中展现出优异性能,推动了视觉专用Transformer架构的演进。

2 方法

2.1 数据收集与预处理

研究队列包括2020年至2024年间接受VMAT治疗的200例患者。原始数据集分为训练集(160例)、验证集(20例)和测试集(20例),分别包含7731、1045和1105张图像。所有计算机断层扫描(CT)模拟均使用Somatom Confidence RT Pro CT扫描仪(Philips Healthcare)以2mm层厚进行。为确保精确靶区勾画,经董事会认证的放射肿瘤学家(具有>10年放疗经验)将配准的诊断磁共振成像(MRI)和正电子发射断层扫描(PET)图像整合到计划过程中。VMAT计划使用临床验证的治疗计划系统生成:Monaco(5.11版,Elekta AB)中的蒙特卡洛算法,剂量计算网格为2mm。所有计划通过多标准迭代优化确保最佳靶区覆盖,同时遵守严格的危及器官剂量约束。最终计划使用配备160叶Agility多叶光栅(MLC)的Elekta Infinity直线加速器通过6MV无均整器束流交付。治疗前,使用ArcCHECK-3DVH系统(Sun Nuclear Corporation)进行全面的质量保证,该系统经过包括验证阵列测量、束流建模验证(3%/3mm条件下伽马通过率>95%)和剂量重建准确性评估在内的全面校准程序。

为确保所有数据类型间的空间一致性,测量剂量和TPS计划剂量分布均直接从DICOM RT Dose文件中提取并转换为32位浮点数组。这些剂量图随后插值以与相应CT图像的坐标系对齐,并重采样到统一网格分辨率。每个3D体积——包括CT、计划剂量和测量剂量——最初表示为512×512×150像素的矩阵。插值过程中应用零填充以保持空间维度。为优化计算效率和内存使用,所有图像在输入模型前下采样到256×256×150分辨率。计划剂量值归一化到每个计划内的最大剂量值以促进稳定网络训练。模型输出以归一化形式生成,随后通过相同参考最大剂量重新缩放反归一化回绝对剂量值(单位Gy)。这些最终预测随后格式化为与临床系统兼容的DICOM RT-Dose对象, enabling直接用于标准质量保证程序如伽马指数分析和DVH评估。

2.2 整体网络结构

本研究提出的STQA网络整体架构,如图1所示,包含对原始Swin-UNet框架的针对性修改以更好地符合我们的剂量预测目标。为应对我们任务的具体需求并增强计算效率,我们实施了两个关键架构调整:首先,将瓶颈层的连续Swin Transformer块替换为ResNet的最终残差网络组件,以利用残差块在保持特征提取能力同时减轻计算复杂度的固有优势,同时保持原始图像分辨率和特征维度;其次,策略性地替换损失函数和优化算法以促进稳定训练收敛和改进任务特定适应。关键的是,STQA保留了包含四个核心组件——编码器、瓶颈、解码器和跳跃连接——的基本U形配置,确保整个网络架构中有效的特征传播和多尺度信息整合。

2.3 基于Swin-Transformer的特征提取

Swin Transformer架构采用两种不同的注意力机制作为其核心特征提取组件:窗口多头自注意力(W-MSA)模块通过固定窗口划分处理局部图像区域,和移位窗口多头自注意力(SW-MSA)模块通过策略性窗口移位操作实现跨窗口信息交换。SwinUNet利用Swin-Transformer层进行特征提取,Patch Merging和Patch Expanding层分别用于下采样和上采样,并融入受U-Net启发的跳跃连接以在解码器中融合编码器特征。

在方程1-4中,?l和zl分别表示第l个(S)W-MSA模型和MLP模型的输出。在方程5中,Q,K,V∈RM2×d分别表示查询矩阵、键矩阵和值矩阵。M2表示一个窗口中的补丁数量,而d表示查询或键矩阵的维度信息。由于模型中相对位置的轴值都在[-M+1,M+1]范围内,需要参数化一个较小的偏差矩阵为B?∈R(2M-1)×(2M+1),其中B是从B?获取的值。在Swin Transformer块中,输入数据首先通过LayerNorm(LN)层。LN在这里的作用类似于计算机视觉(CV)中常用的BatchNorm(BN),两者都旨在一定程度上归一化前一层的激活以避免梯度消失问题。LN和BN的区别在于归一化计算的维度:LN跨层维度计算归一化,而BN跨批次维度计算。在NLP领域,网络的批次大小通常小于CV,使得BN相比LN效果较差,因此LN层常用于Transformers。LN的公式如方程6所示。

其中E[x]表示x的均值,Var[x]表示x的方差。?是一个很小的数以避免分母为零的可能性,γ和β是可学习参数。

通过LN层后,输入到W-MSA或SW-MSA层。与多头自注意力(MSA)相比,W-MSA通过独立计算每个窗口节省了大量计算。对于大小为(h,w)的输入图像,假设每个窗口包含M×M补丁,MSA和W-MSA的计算复杂度公式分别由方程7、8给出。

W-MSA减少了计算但导致窗口间缺乏信息通信。为解决这一问题,必须在后续块中计算SW-MSA。通过将窗口向下和向右移动半个窗口大小,然后再次为移位窗口计算W-MSA,实现窗口间的信息交互。因此,W-MSA和SW-MSA需要成对出现。正因如此,Swin Transformer中的块数通常为偶数。在Swin-UNet中,Swin Transformer的块数为2,包含一个W-MSA块和一个SW-MSA块。通过W-MSA层或SW-MSA层后,接着是BN层,最后是多层感知机(MLP)进行特征映射,获得最终输出。

2.4 提出的STQA

Swin-UNet在提取上下文信息和恢复空间分辨率方面表现出强大能力;然而,深度瓶颈部分用于图像特征计算的transformer模块收敛性仍不理想。考虑到网络参数化随着深度增加的挑战,本文提出了对Swin-UNet深度瓶颈的增强。由于ResNet中残差块的设计不会随着网络深度增加而降低特征提取能力,将瓶颈位置的两个连续Swin Transformer块替换为ResNet层是一个可行的解决方案。ResNet网络主要由多个残差模块组成——这是现代神经网络中的流行结构——解决了因层数加深导致的退化问题,从而即使在千层网络中也能进行参数计算。经过优化和比较,我们采用深度ResNet网络的最终层作为Swin-UNet的瓶颈,以提高模型在预处理患者特异性数据质量保证中的预测准确性,如图3所示;此外,为减少参数计算,采用1×1卷积对特征向量进行降维。

当数据特征通过ResNet深度网络的最后一层时,图像分辨率和特征维度保持不变。如图3所示,该层包含三个残差块,每个残差模块由一个包含两个卷积块、两个BN层和一个ReLU激活的残差块层组成。改进的Swin-UNet网络保持与原始相同的编码器、瓶颈和解码器组件,但将Swin-UNet瓶颈替换为ResNet网络的最后一层—— resulting in nearly a 40% reduction in network parameters while achieving better performance.

在编码器中,图像首先使用Patch Partition层划分为补丁,线性嵌入层对数据进行标记化,生成大小为H/4×W/4的C维表示。划分的块随后通过Patch Merging层连接,将补丁分辨率降低到原始的一半;虽然合并的特征最初是原始维度的四倍,但应用额外的线性层将维度统一为原始的两倍。在瓶颈处,利用ResNet残差块在网络加深时性能不退化的优势,采用ResNet的第五层结构克服transformer块在深度网络中的收敛问题,输入特征分辨率设置为W/32×H/16并保持不变。最后,Patch Expanding层通过将分辨率加倍同时将特征维度减半来上采样特征,直到恢复完整尺寸分辨率,跳跃连接将编码器的多尺度特征与上采样特征融合,以减轻由下采样引起的空间信息损失。STQA的算法流程如下:(见算法1)

2.5 实验设置

为验证STQA预测的有效性,我们使用相同测试集将我们的方法与三个已建立的预测网络进行比较:U-Net、CycleGAN(CGAN)、TransQA(TrQA)和Swin-UNet(SWNet)。比较方法总结如下:(1)U-Net:最近适用于剂量预测任务的经典编码器-解码器架构,在医学图像分析中表现出强大性能。(2)CGAN:Zhu等人提出的无监督框架,采用具有循环一致性的双生成对抗网络,消除对配对训练数据的要求。(3)TrQA:将Transformer的自注意力机制与增强的U-Net结构整合的混合架构,专为PSQA中的VTDose预测设计。(4)SWNet:Lin等人开发的开创性U形网络,在编码器和解码器路径中融入分层Swin Transformer块以改进医学图像分割。

对于定量评估,我们采用三个既定指标:结构相似性指数(SSIM)、平均绝对误差(MAE)和均方根误差(RMSE)。实验数据集包括配对的放疗计划数据,包括CT图像、计划剂量分布和相应的VTDose真实值(GT)图,收集自多个癌症患者。为利用多模态信息,我们将CT和计划剂量图像沿通道维度连接作为双通道输入,保留其独特的信息特征,同时为网络提供互补的解剖和剂量学特征。此外,GPR分析作为VMAT的PSQA中比较测量和计算剂量分布最广泛采用的方法,其中一致性水平通常通过GPR指标量化。为进一步评估不同方法的预测准确性,我们额外比较了各种预测方法的三维GPR(3%/2mm标准,10%阈值)。

提出的STQA架构在PyTorch中实现,并在NVIDIA GeForce RTX 3090 GPU上使用CUDA加速计算进行训练/测试。我们采用Adam优化器,以L1损失作为主要目标函数,设置初始学习率为1e-5,训练200轮次。为确保公平比较,所有基线模型使用相同的训练协议和硬件配置重新实现。每个模型的总训练时间记录如下:U-Net:28小时,CGAN:34小时,TrQA:41小时,SWNet:44小时,STQA:38小时。训练后,每个模型可在约5-7秒内生成完整的3D剂量分布,展示了适用于时间敏感临床环境的引人注目的推理速度。

进行消融研究以系统评估我们框架中的关键架构组件和参数设置。调查包括两个主要方面:(1)三种架构变体的性能比较:基线Swin-UNet、我们的完整STQA模型,以及在瓶颈层直接级联ResNet块的混合Swin-UNet+ResNet(SURNet)配置。(2)STQA中跳跃连接配置的定量分析,测试了不同数量的跨尺度连接(0-3)。具体地,3个跳跃连接表示在1/16、1/8和1/4分辨率级别的完整连接;2个连接利用1/16和1/8级别;1个连接仅使用1/16级别,而0连接表示完全移除跳跃连接。这一系统评估使我们能够全面理解我们提出架构中的特征传播机制。

3 结果

表2展示了所有测试案例的定量评估结果。如表2所示,STQA在所有指标上相比U-Net和CGAN实现了统计显著改进。当比较STQA与最先进方法TrQA和SWNet时,我们的方法展现出卓越性能,特别是在RMSE指标上,STQA将误差降低到0.416,而TrQA为0.646,SWNet为0.597。在结构相似性方面,STQA达到SSIM值0.978,分别优于TrQA(0.958)和SWNet(0.944)0.020和0.034。

为增强方法学间的视觉比较,图4展示了跨越三个解剖区域(头颈、胸部、腹部)在轴位、冠状位和矢状位方向上的代表性预测剂量分布。图4的视觉检查表明U-Net和CGAN相对于比较方法表现不佳,U-Net表现出最显著的预测不准确性。VTDose图表明STQA生成具有增强剂量保真度的预测,这一发现得到剂量差异图的全面分析进一步支持。差异分布的对比评估显示,基于Transformer的模型(TrQA、SWNet和STQA)相比传统方法展现出显著减少的偏差。值得注意的是,STQA在所有临床案例中实现最小剂量差异,在保持与GT剂量分布对齐方面优于其他基于Transformer的对应方法。为评估局部剂量准确性,我们计算了关键危及器官(包括脊髓和腮腺)中Dmean和Dmax的平均绝对误差。STQA分别实现1.08±1.21 Gy和1.14±0.67 Gy的误差,优于所有基线,其次是SWNet和TrQA,U-Net最差。这一性能优势表明STQA在保存剂量学细节同时确保与GT空间一致性方面的卓越能力。

为评估每个网络对特定癌症部位的预测性能,基于三大癌症部位(头颈、胸部、腹部)分别进行测试,各方法结果比较如表3所示。从三个指标的跨部位比较来看,所有方法对胸部的剂量预测结果均优于其他两个部位。这可能是因为胸部结构相比其他两个部位更简单,且胸部患者数量最多(116,58%),使得网络更容易提取特征。此外,腹部患者的预测准确性略优于头颈患者,这可能是因为头颈患者数量少且解剖结构复杂。尽管癌症部位分布不平衡,但数据拆分过程中的分层采样有助于减轻偏差,且STQA在所有部位一致优于基线。总体而言,STQA在所有三个癌症部位实现最佳预测准确性。这表明STQA网络在各种形状和纹理差异中展现出最佳性能。此外,GPR分析揭示了模型间的明显性能差异:U-Net模型获得次优GPR结果(98.54±3.42%),显示出统计上劣于其他方法。相比之下,STQA证明与GT测量最接近,产生GPR值95.43±3.41% versus GT基线94.63±2.84%。中间性能见于CGAN(98.22±2.74%)、TrQA(96.91±4.16%)和SWNet(96.20±3.65%),均显示可比的GPR结果。VTDose的GPR与预测之间的平均误差对于U-Net为4.24%,对于CGAN、TrQA和STQA分别为3.42%、2.52%、1.77%和1.1%。

表4展示了不同模型架构间性能差异的消融实验。在三种结构模型的参数数量比较中,我们观察到将原始Swin-UNet的瓶颈替换为ResNet的网络层(STQA)导致训练模型文件的内存占用减少近40%。此外,STQA相比SWNet展现出模型文件内存减少近50%。这表明STQA架构不仅减少了冗余参数且具有更小的时间复杂度,还略微提高了性能。虽然SURNet模型展现出最佳性能,但其更深的网络结构导致更大的模型参数数量和更高的时间复杂度。因此,综合考虑所有因素,我们认为STQA结构展现出最佳性能。表5展示了网络中跳跃连接数量对其性能的影响(消融实验2)。我们观察到神经网络在具有3个跳跃连接时展现出最高预测准确性。这可能是因为适当数量的跳跃连接可以有效整合不同层的特征,增强网络捕捉多尺度信息的能力。太少的跳跃连接可能无法充分利用特征层次,而太多可能引入不必要的复杂性和潜在过拟合。因此,在本研究中,我们默认跳跃连接数量为3,因为它在特征整合和模型复杂性之间取得了平衡, leading to optimal performance.

4 讨论

人工智能,特别是深度学习(DL)技术,已在放疗治疗计划和实施的多个方面找到广泛应用,如肿瘤靶区勾画、自适应放疗计划、3D剂量预测和PSQA。准确快速实施患者放疗治疗的质量保证过程可以辅助物理师进行患者护理。在方法方面,相比CNN网络,基于Transformers的DL网络缺乏一些重要的归纳偏差(如局部性和平移等变性),使得其训练严重依赖大规模数据集和预训练模型。然而,由于缺乏大规模和良好注释的数据集,DL在医学影像领域的发展落后于自然图像处理。特别是,将Transformers应用于放疗质量保证领域的研究很少。近期,Hu等人提出了一个称为TrDosePred的U形网络,由卷积补丁嵌入和几个基于局部自注意力的Transformer块组成。该网络旨在从轮廓CT图像生成剂量分布。测试数据集上的剂量分数为2.426 Gy,DVH分数为1.592 Gy。结果表明TrDosePred的性能与先前最先进方法相当甚至更好,证明了Transformers在改进治疗计划过程中的潜力。

本文中,我们旨在从放疗体积图像中获取全局上下文信息以提高VMAT质量保证的准确性。我们创新性地改进了Swin-UNet架构以构建STQA网络,使网络适用于处理放疗计划数据。具体地,我们修改了用于训练网络的损失函数和优化器分别为L1损失和Adam。此外,为探索最优网络训练,我们尝试使用L1和L2两种损失函数的组合与加权分配训练网络。最重要的是,我们将Swin-UNet网络下采样和上采样层之间的两个连续Swin Transformer模块替换为ResNet层,以克服因网络深度导致的特征提取退化问题,从而提高性能。Transformers的固有特性使其能够以稳定且相对较高的分辨率处理特征表示,准确满足密集预测任务中对更细粒度和全局一致预测的需求。与其他最先进模型相比,我们将基于Transformer的DL方法应用于VTDose预测任务并实现了更好的准确性。这进一步证明了Transformers在医学影像相比传统CNN网络的杰出成就,有助于缩小医学影像DL与自然图像处理之间的发展差距。

通过代表性预测VTDose分布的视觉比较强化了这些定量发现。STQA的VTDose图显示出卓越的保真度。剂量差异图进一步证实了这一点,STQA在所有案例中表现出最小差异,特别是在高剂量区域和关键解剖结构。这一点尤其重要,因为这些区域通常因复杂性和剂量错误的潜在后果而最难准确预测。表2-4证明我们提出的STQA框架在多个评估维度上实现了VTDose预测的最先进性能。相比现有基于Transformer的方法(TrQA和SWNet),STQA将RMSE分别降低了35.6%和30.3%,同时SSIM相比这些基准提高了3.6%和2.1%。这些进步几乎与近期利用混合架构进行医学图像分析的研究中报告的性能增益一致。这些具有挑战性案例中SSIM的16.6-25.3%改进和MAE的18.5–69.5%降低表明,我们的多尺度跳跃连接策略和混合瓶颈设计有效捕捉了全局上下文关系和局部纹理细节——这是纯Transformer架构未能完全实现的能力。消融研究进一步验证了STQA的架构创新。相比SWNet,模型内存占用减少40-50%,同时保持竞争性准确性,解决了Transformer-based模型的一个关键实际局限。尽管SURNet实现了略微更高的SSIM值(0.988 vs. STQA的0.982),但其2.3倍的参数数量和更长的推理时间使其临床不实用。因此我们的结果表明STQA成功平衡了计算效率与预测准确性。

由于患者数据和DL网络的固有约束,预测与测量结果间的某些差异是不可避免的。解决这些差异的未来工作涉及增加数据集大小或通过优化精炼DL网络。本工作所用数据集中的患者来自多个部位,但它们是混合用于训练和测试,而不是一组用于训练另一组用于外部测试。由于不同中心的数据可能表现出显著差异,它会影响训练的有效性。未来,平衡数据处理或增加患者数据量将进一步提高预测准确性。然而,值得注意的是,虽然纳入多机构数据通过捕捉更广泛的解剖和剂量学变异可能进一步提高模型的泛化能力,但本研究利用单一机构数据以确保成像和治疗协议的一致性。医学数据固有的稀有性和异质性对组装大型、多样化的多中心数据集构成了重大挑战。胸部案例的主导可能引入偏向更简单解剖结构的偏差,尽管我们的模型在更复杂部位仍然表现良好。未来工作将旨在收集跨癌症部位和机构的更平衡数据集。虽然我们没有单独计算伽马失败分类的体素级灵敏度/特异性,但直接在容积VTDose上操作提供了失败体素定位和事后伽马图合成所需的空间可观察性;我们计划在未来工作中报告专门的体素级伽马失败分析。最后,模型仍然受时间复杂性影响,我们将在未来工作中努力减少模型的时间复杂性。

总之,本研究提出了一个称为STQA的新框架用于VMAT质量保证,展现出相比现有模型的卓越性能。为增强模型的泛化能力和收敛特性,我们创新性地将ResNet层整合到网络瓶颈中以增强特征提取能力,同时采用先进的损失函数和优化策略。在VMAT治疗的癌症患者数据集上进行的全面验证显示,STQA在各种肿瘤部位的全局剂量分布预测和边缘剂量准确性方面均达到最先进性能。这一成功实施不仅解决了VMAT质量保证中的关键挑战,而且为深度学习在医学领域的有效整合铺平了道路, potentially inspiring医学人工智能的新方法学发展。从临床整合视角,STQA展示了实践可行性。完整3D剂量预测的平均推理时间在NVIDIA RTX 3090 GPU上约为5-7秒,与常规QA工作流程兼容。该模型可以作为独立应用程序部署或通过标准化DICOM RT Dose接口集成到现有治疗计划系统中。未来工作将专注于用户界面开发和临床环境中的实时验证。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号