
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于肿瘤及瘤周特征的影像组学模型结合半监督与特权学习预测肺癌转移风险:一项多中心研究
【字体: 大 中 小 】 时间:2025年09月02日 来源:Computational and Theoretical Chemistry 2.8
编辑推荐:
推荐:本研究针对肺癌转移早期预测难题,创新性地结合肿瘤及瘤周区域(3mm内外边界)的CT影像组学特征,采用半监督学习(SETRED)和特权学习(SVM+)技术,在114例患者训练集和21例多中心验证集上实现81.65%的平衡准确率,显著优于临床专家预测。该模型通过特征协调(Combat方法)解决了多中心数据异质性,首次系统优化了瘤周区域宽度,为肺癌精准诊疗提供了可泛化的AI工具。
肺癌作为全球癌症相关死亡的首要原因,其转移风险的早期预测一直是临床重大挑战。尽管TNM分期系统被广泛使用,但其仅依赖肿瘤病理特征而忽略患者临床信息的局限性,使得30-55%的非小细胞肺癌(NSCLC)患者在治疗后仍出现复发。当前临床依赖的影像学评估主要关注肿瘤本身特征,而越来越多的证据表明,肿瘤微环境(Peritumoral area)的异质性可能隐藏着侵袭性行为的生物学线索。然而,现有AI模型面临三大瓶颈:多中心数据异质性导致的泛化能力不足、长期随访造成的样本量限制,以及临床验证时特征缺失的兼容性问题。
来自亚里士多德大学的Dimitrios Filos团队在《Computational and Theoretical Chemistry》发表的研究,开创性地将半监督学习(Semi-Supervised Learning)与特权学习(Learning Using Privileged Information, LUPI)融入影像组学分析框架。研究利用TCIA公开数据库中114例肺癌患者的CT影像(GE/SIEMENS多机型),通过PyRadiomics提取原发肿瘤及瘤周区域(覆盖瘤内3mm至瘤外3mm)的2436个特征,采用Combat方法进行特征协调,结合递归特征消除(RFE)筛选出7个关键特征。通过SETRED算法将未标记数据量提升22%,并运用SVM+模型整合训练集特有临床参数(如ALK translocation状态),最终在INCISIVE项目21例多中心数据验证中实现突破性性能。
关键方法
数据采集:TCIA数据库211例NSCLC患者CT影像(114例标记+21例未标记)与INCISIVE项目21例多中心验证集
特征工程:使用PyRadiomics提取肿瘤及37种宽度瘤周区的2436个特征,应用Combat方法协调多中心数据
模型构建:采用投票式RFE筛选特征,最优瘤周宽度通过100次迭代SVM超参数调优确定
算法创新:SETRED半监督学习扩展数据集,SVM+特权学习整合验证集缺失的临床特征
主要结果
3.1 特征选择与瘤周尺寸分析
研究发现3mm瘤内至3mm瘤外区域最能预测转移风险(平衡准确率77.5%),该区域提取的灰度依赖矩阵特征(GLDMLargeDependenceHighGrayLevelEmphasis)与转移显著相关(p=0.0025)。值得注意的是,当瘤周区超过3mm时,特征重要性反而降低,提示距肿瘤边缘较远的肺组织信息价值有限。
3.2 监督学习模型验证
基于Laplacian of Gaussian (LoG)滤波的瘤周区纹理特征(log.sigma.3.0.mm.3D_glrlm_LongRunLowGrayLevelEmphasis)对模型贡献最大(特征重要性≈2.0),联合患者分期(TNM stage)使外部验证集灵敏度达80%。仅使用肿瘤特征的对照模型性能下降6.55%,证实瘤周区的增量价值。
3.3-3.4 半监督与特权学习提升
通过SETRED算法生成的伪标签将训练集扩增至114例,SVM+模型整合了胸膜侵犯(Pleural invasion)等特权信息,使测试集平衡准确率提升至81.65%,特异性/灵敏度分别达83.3%/80%。
3.5 人机性能对比
在17例临床数据盲测中,AI模型平衡准确率(89.3%)显著高于临床专家(76.5%),尤其在特异性方面优势明显(83.3% vs 66.7%),但受限于小样本量(仅3例转移)。
结论与展望
该研究首次系统证实3mm瘤周区是预测肺癌转移的影像学生物标志物最佳窗口,其放射组学特征与肿瘤异质性呈正相关。通过半监督学习突破样本限制,特权学习增强模型鲁棒性的技术路线,为多中心AI研究提供了新范式。局限在于未考虑治疗方案影响,未来将通过EUCAIM联盟开展更大规模验证,并探索影像组学与基因组学的关联机制。这项成果不仅为肺癌精准分层诊疗提供了可靠工具,其方法论框架对其它癌症的预后预测具有重要借鉴意义。
生物通微信公众号
知名企业招聘