基于图网络与不平衡最优传输的影像组学聚类方法及其在头颈鳞癌和肺癌预后预测中的应用研究
《Computational and Structural Biotechnology Journal》:Radiomic clustering using graph network techniques coupled with unbalanced optimal transport
【字体:
大
中
小
】
时间:2025年11月01日
来源:Computational and Structural Biotechnology Journal 4.1
编辑推荐:
本研究针对高维影像组学数据样本量有限、特征多重共线性等挑战,开发了一种结合正则化网络模型与不平衡最优传输(UOT)的图网络k均值聚类算法(UOTK)。通过对头颈鳞癌(HNSCC)和非小细胞肺癌(NSCLC)的CT影像组学特征与RNA-Seq基因表达数据进行分析,成功识别出具有显著生存差异的高/低风险亚组(HNSCC进展无生存期p=0.0202,NSCLC总生存期p=0.0007),并发现风险亚组与中性粒细胞、静息树突状细胞等免疫细胞浸润显著相关,为影像特征与肿瘤免疫微环境的关联提供了新见解。
在精准医疗时代,医学影像已成为肿瘤诊断和治疗评估不可或缺的工具。然而,海量的影像数据背后隐藏着怎样的生物学秘密?如何从这些高维特征中提取有临床价值的信息?这正是影像组学(Radiomics)研究的核心挑战。传统机器学习方法在处理高维度、小样本的影像组学数据时,常常陷入过拟合的困境,且模型的可解释性较差。更棘手的是,影像组学特征之间存在复杂的相关性,犹如一张错综复杂的网络,使得关键特征的筛选变得异常困难。
为了突破这些瓶颈,来自纪念斯隆-凯特琳癌症中心的研究团队独辟蹊径,将图网络(Graph Network)技术与不平衡最优传输(Unbalanced Optimal Transport, UOT)理论相结合,开发了一种全新的影像组学数据分析方法。这项创新性研究发表于《Computational and Structural Biotechnology Journal》,为影像组学研究提供了新的思路。
研究团队采用的核心技术方法包括:基于偏相关系数的正则化影像组学网络构建、扩展贝叶斯信息准则(EBIC)优化的图形LASSO(Least Absolute Shrinkage and Selection Operator)网络稀疏化、基于Dijkstra算法的最短路径成本计算,以及不平衡最优传输耦合的k均值聚类算法(UOTK)。研究数据来源于癌症影像档案(TCIA)的CT影像和癌症基因组图谱(TCGA)及基因表达汇编(GEO)的RNA-Seq数据,涵盖77例头颈鳞癌和117例非小细胞肺癌患者。
通过剔除与肿瘤体积高度相关(Spearman相关系数>0.8)的特征,并设置偏相关系数阈值0.15过滤弱连接,研究成功构建了头颈鳞癌和肺癌的影像组学网络。头颈鳞癌最大连通子网络包含65个特征,而非小细胞肺癌最大和第二大子网络分别包含68和56个特征。值得注意的是,头颈鳞癌最大子网络与非小细胞肺癌第二大子网络之间有50个特征重叠,主要包括肿瘤体积以及Laws和Gabor滤波图像的一阶统计量。
应用UOTK算法进行样本聚类后,研究发现头颈鳞癌最大子网络识别的高/低风险组在无进展生存期上存在显著差异(p=0.0202),而非小细胞肺癌第二大子网络识别的高/低风险组在总生存期上差异显著(p=0.0007)。值得注意的是,将非小细胞肺癌数据在头颈鳞癌网络上进行验证,同样获得了显著的生存差异(p=0.0007),证明了方法的稳健性。
与平衡最优传输耦合的k均值和传统k均值相比,UOTK算法在两组数据中都表现出最优的生存区分能力,特别是在双聚类设置下获得了最显著的p值。
在非小细胞肺癌队列中,高风险组T2分期比例较高(54.9%),而低风险组T1分期比例较高(59.1%),T分期和M分期在两组间存在显著差异。头颈鳞癌队列中未发现临床特征的显著差异。
肿瘤免疫细胞浸润分析显示,头颈鳞癌低风险组中性粒细胞浸润显著高于高风险组(p=0.0221)。非小细胞肺癌高风险组静息树突状细胞(p=0.0126)和活化肥大细胞(p=0.0046)浸润显著高于低风险组。基因本体分析进一步揭示了差异表达基因在神经系统调控和定位调控等生物学过程中的富集。
研究结论与讨论部分强调,这种基于图网络和不平衡最优传输的无监督分析方法,不仅避免了传统监督学习中的过拟合问题,还通过可视化特征间依赖关系增强了模型的可解释性。该方法成功识别了与预后相关的影像组学亚型,并通过关联分析揭示了这些影像特征与肿瘤免疫微环境的潜在联系。特别值得关注的是,该方法在跨癌种验证中表现出良好的稳健性,为影像组学模型的临床转化提供了新途径。
研究的局限性包括网络规模优化的挑战、UOT中α参数选择的敏感性以及相对有限的样本量。然而,这种参数自由的无监督设计为小样本影像组学研究提供了有前景的解决方案。未来研究将探索该方法在其他影像模态中的应用,并进一步整合临床变量以提升模型性能。
这项研究的意义在于,它首次将不平衡最优传输理论系统性地应用于影像组学聚类分析,建立了一种能够捕捉图像间细微差异的稳健嵌入方法,为发现与预后相关的影像组学亚型提供了新工具,同时也为理解影像特征与肿瘤免疫微环境的相互作用开辟了新视角。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号