
-
生物通官微
陪你抓住生命科技
跳动的脉搏
影像组学中特征投影与特征选择方法的性能比较研究:基于50个数据集的系统评估
【字体: 大 中 小 】 时间:2025年09月06日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对影像组学(Radiomics)研究中特征投影方法(如PCA)因可解释性担忧而被忽视的问题,通过系统比较9种特征投影与9种特征选择方法在50个CT/MRI数据集上的预测性能。研究发现特征选择方法(如ET、LASSO)平均表现最优,但特征投影方法(如NMF)在特定数据集可超越选择方法,两者总体差异无统计学意义(p>0.15)。该研究为影像组学特征降维策略选择提供了实证依据,建议根据具体数据集评估两种方法。
在医学影像分析领域,影像组学(Radiomics)通过提取大量定量特征来揭示肉眼难以识别的疾病特征,已成为精准医疗的重要工具。然而,面对成百上千个高度相关的影像特征,研究人员长期面临一个关键抉择:是选择保留原始特征但可能冗余的特征选择(Feature Selection)方法,还是采用能有效降维但可能损失可解释性的特征投影(Feature Projection)方法?传统观点认为,为保持特征与生物标志物的可解释关联,影像组学研究普遍倾向特征选择方法,而将主成分分析(PCA)等投影方法束之高阁。但这种以牺牲预测性能为代价的"解释优先"策略是否合理,学界一直缺乏系统论证。
正是基于这一科学争议,Aydin Demircioglu团队在《Scientific Reports》发表了这项开创性研究。研究人员质疑了一个根本假设:大多数影像组学特征(特别是纹理特征)本就缺乏直观的生物学解释,那么过度追求特征可解释性是否反而限制了模型性能?为验证这一假说,研究团队设计了一套严谨的评估框架,通过对50个不同器官、不同临床终点的CT/MRI数据集进行大规模基准测试,首次系统比较了特征投影与选择方法的预测效能差异。
研究采用嵌套交叉验证的严格实验设计,在5×10折交叉验证框架下评估了9种投影方法(包括PCA、核PCA、非负矩阵分解NMF等)和9种选择方法(如最小冗余最大相关MRMRe、极端随机树ET、LASSO等)结合4种分类器的性能。评价指标全面覆盖AUC(受试者工作特征曲线下面积)、AUPRC(精确召回曲线下面积)以及F1、F0.5和F2分数,确保结论的稳健性。
关键技术方法包括:1) 使用radMLBench收集的50个公开影像组学数据集,涵盖CT/MRI多种器官的二元分类任务;2) 采用分层嵌套交叉验证(外层5折、内层10折)进行模型训练与评估;3) 固定特征降维数量(1-32个)以控制变量;4) 通过Friedman检验与Nemenyi事后检验进行统计比较;5) 采用Bland-Altman分析评估方法间一致性。
结果部分的重要发现:
性能排名分析
通过图1的排名可视化发现,特征选择方法整体占据优势,ET和LASSO以平均排名8.0和8.2位列前茅,而最佳投影方法NMF平均排名9.8。值得注意的是,不进行任何特征降维的策略反而优于所有投影方法(平均AUC损失0.01)。统计检验显示,UMAP和监督随机投影(SRP)显著劣于顶级选择方法(p<0.05)。

方法间一致性比较
图2的Bland-Altman分析揭示关键洞见:尽管选择方法整体占优,但投影与选择方法的平均差异在所有指标上均可忽略不计(Wilcoxon检验p>0.15)。数据集中存在显著异质性——在WORC-LIPO数据集上,最佳选择方法(Boruta)比最佳投影方法(PCA)的AUC高0.10;而在Zhang2023数据集中,核PCA反超Bhattacharyya距离法0.06。

方法替换收益分析
图3的置换分析显示,用投影方法替换顶级选择方法(如ET)仅在少数情况下能提升性能(平均AUC损失0.042)。但反例同样存在:因子分析(FA)在9个数据集上成为最佳投影方法,表明其特定场景下的优势。

计算效率评估
图5显示选择方法普遍更高效,LASSO在性能与速度间达到最佳平衡。而Boruta和Mini-Batch字典学习(MBDL)计算成本显著较高,这为资源受限的研究提供了实用参考。

讨论与结论
这项研究打破了影像组学领域对特征投影方法的传统偏见,证明虽然特征选择方法(如ET、LASSO、MRMRe)在平均表现上略胜一筹,但特征投影方法在特定数据集上可能提供更优预测。这种"没有放之四海而皆准的最佳方法"的发现,与机器学习领域的"没有免费午餐"定理相呼应。
研究对影像组学实践具有三重启示:首先,在追求最高预测性能时,应同时测试选择和投影方法;其次,计算效率考量下,LASSO等选择方法仍是大多数研究的首选;最后,对于部分可解释特征(如病灶体积),可采用混合策略——保留解释性特征同时对抽象特征进行投影降维。
该研究的局限性包括仅分析CT/MRI数据、未调整降维方法超参数、未涵盖深度学习技术等。未来研究可探索投影方法在影像直接分析中的应用,以及超参数调优对性能的影响。总之,这项研究为影像组学特征降维提供了实证指导,强调方法选择应基于数据特性而非固有偏见,推动领域向更科学、更开放的方法论选择迈进。
生物通微信公众号
知名企业招聘