基于时空卷积Transformer（ST-ConvTransformer）的肺肿瘤随访生长预测模型：一种多模态融合的精准预测新方法

《Biomedical Signal Processing and Control》：Lung tumor growth prediction of follow-up via Spatio-Temporal Convolutional Transformer

【字体：大中小】 时间：2026年02月19日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　本文针对肺肿瘤生长预测中现有方法缺乏直观判断与临床信息整合的难题，提出了一种易于训练、功能多样的时空卷积Transformer（ST-ConvTransformer）架构。该模型创新性地融合纵向CT影像的时空特征与患者临床信息（如吸烟史、职业等），通过在包含2800名临床受试者的数据集上进行广泛验证，取得了优异的预测性能（Precision 80.87%, Recall 89.74%, Dice 84.24%），展现出作为可靠的临床辅助工具用于预测肺肿瘤生长的巨大潜力，为制定个性化治疗策略提供了有力支持。

精准预测肺肿瘤未来的生长趋势和结构变化，对于癌症筛查和制定有效的抗癌治疗方案至关重要。然而，肿瘤的生长并非简单的线性过程，而是复杂的非线性演化，且不同肿瘤类型（如良性结节与恶性肿瘤）表现各异。更棘手的是，在临床实践中，肿瘤的纵向研究数据（即同一患者在多个时间点的影像数据）往往收集不足，这使得准确捕捉肿瘤的动态演变规律变得极具挑战性。现有的一些方法，如基于数学模型的模拟或单纯的光流计算，往往将肿瘤生长过度简化，难以模拟其真实的非线性生长模式。那么，能否开发一种更可靠、更能体现患者个体差异的肿瘤生长预测方法呢？

为了回答这个问题，来自山西财经大学信息学院的研究团队在《Biomedical Signal Processing and Control》期刊上发表了一项研究，提出了一种名为“时空卷积Transformer（ST-ConvTransformer）”的新型端到端肿瘤预测模型。这项研究旨在通过融合多时间点的CT影像特征和患者的临床文本信息，构建一个能够精准预测早期肺肿瘤生长的智能工具。

研究人员开展这项研究主要用到了几个关键技术方法。首先，他们整合了两个主要数据集：来自美国国家肺部筛查试验（NLST）的公共数据集和来自合作医院的私有数据集，共计2800名患者的8400张图像。在数据预处理阶段，他们对来自不同时间点的CT图像进行了配准和裁剪，以聚焦于肿瘤区域。模型架构方面，核心是ST-ConvTransformer，它包含特征嵌入、编码器、解码器和预测网络。其中，视觉编码子模块利用时空门控机制（空间门和时空门）分别提取肿瘤在CT图像中的位置特征和多时间点随访数据中的时间演变特征。同时，一个轻量级的文本Transformer被用来编码患者的临床信息（如吸烟史、饮酒频率、职业、家族史等）。随后，通过图像-文本对比学习策略，将视觉特征与文本特征在共享嵌入空间中对齐和融合。最后，使用包含全变分正则化项的像素级均方误差损失函数进行模型训练，以提升预测图像的平滑度和细节保真度。

研究结果具体展示如下：

3.3. 性能分析

通过与多种前沿方法（如ST、CE-ConvLSTM、GP-GAN、ST-ConvLSTM、CRVAE、CE-LCTformer）在相同测试集上的对比，ST-ConvTransformer展现出优异的综合性能。其精确率（Precision）达到89.74%，Dice相似系数（Dice Similarity Coefficient， DSC）为84.24%，弗雷谢起始距离（Frechet Inception Distance， FID）得分低至16.00，均优于其他对比方法。尽管其召回率（Recall）为79.13%，略低于ST-ConvLSTM的80.87%，但研究者认为这更适合用于筛查高风险患者以避免漏诊。统计显著性检验（p<0.05）证实了该模型相较于基线模型的改进是可靠的。

3.4. 定性结果

可视化预测结果显示，基于前两个时间点的肿瘤图像，ST-ConvTransformer预测出的第三个时间点的肿瘤图像（D列）与真实情况（C列）非常接近，无论是大小还是形状，差异极小，直观证明了该模型预测肿瘤生长的准确性。

3.5. 消融实验

通过系统地移除或修改模型组件，消融实验验证了各模块的有效性。结果显示，同时包含时空门和临床信息的完整模型性能最佳。与空间门相比，时间门对预测精度的贡献更大，这源于肿瘤特征随时间变化显著。更重要的是，引入临床信息将预测准确率从76.10%提升至79.13%，证实了结合影像与临床数据能更好地模拟肿瘤生长动力学。此外，在损失函数对比中，均方误差（Mean Square Error， MSE）结合全变分（Total Variation， TV）正则项的效果优于平均绝对误差（Mean Absolute Error， MAE）。

3.6. 亚组实验

研究将病变区分为良性肺结节（2147张图像）和恶性肿瘤（653张图像）分别进行预测。结果显示，模型对良性结节的预测性能（召回率80.16%，精确率73.25%，Dice系数85.41%）显著优于对恶性肿瘤的预测（召回率64.43%，精确率87.25%，Dice系数70.88%）。这主要是因为恶性肿瘤生长迅速且形态不规则（如毛刺、分叶），增加了预测难度。

3.7. 肿瘤生长与临床信息的关系

利用文本Transformer分析临床因素与肿瘤生长的关联。皮尔逊（Pearson）相关系数分析表明，吸烟史（C = 0.6531）、职业暴露（C = 0.6400）和家族癌症史（C = 0.5519）与更差的肿瘤预后（即更快的生长）呈强正相关。而饮酒频率（C = -0.0969）则呈现较弱的负相关。这直观展示了整合临床信息如何帮助模型理解个体风险差异。

在讨论部分，研究者将ST-ConvTransformer与以往基于放射组学、卷积神经网络（Convolutional Neural Network， CNN）、长短期记忆网络（Long Short-Term Memory， LSTM）以及Transformer的方法进行了对比，指出其通过多模态对比学习策略联合建模纵向影像和临床数据，实现了对肿瘤演化更全面、稳健的表征。同时，研究也利用梯度加权类激活映射（Gradient-weighted Class Activation Mapping， Grad-CAM）对模型进行可解释性分析，可视化结果显示ST-ConvTransformer的关注区域清晰地集中在肿瘤边界和内部，准确勾勒了病灶形态及其在纵向随访中的细微演变趋势，这有助于增强临床医生对模型决策的信任。研究也承认了局限性，例如对表现为局部侵袭性生长的结节预测存在偏差，且未充分探讨基因标记等其他患者特异性因素，这为未来研究指明了方向。

综上所述，本研究提出的时空卷积Transformer（ST-ConvTransformer）成功整合了肿瘤影像的时空演变信息和患者临床背景，为肺肿瘤生长预测提供了一种高精度、可解释的新方法。它不仅显著提升了预测的形态学和体积学准确性，而且通过关联临床风险因素，推动了个体化医疗的发展。该模型有潜力成为一种可靠的临床辅助工具，帮助医生更早评估肿瘤侵袭性、制定个性化随访和治疗方案，从而优化肺癌患者的临床管理。尽管在应对高度异质性的恶性肿瘤和整合更广泛的生物标志物方面仍有提升空间，但这项研究无疑为基于人工智能（Artificial Intelligence， AI）的肿瘤预后预测领域开辟了一条富有前景的多模态融合路径。

热点排行

新闻专题