基于多组学机器学习模型的无创鉴别肾无可见脂肪错构瘤与均质透明细胞肾癌的研究

《Medical Care》:A multiomics analysis-assisted machine learning model identifies renal hamartoma without visible fat and homogeneous clear cell renal cell carcinoma: A retrospective cohort study

【字体: 时间:2026年01月02日 来源:Medical Care 2.8

编辑推荐:

  本研究通过整合CT影像组学与尿液蛋白质组学特征,构建机器学习模型,实现肾无可见脂肪错构瘤(RH-WVF)与均质透明细胞肾细胞癌(hm-ccRCC)的术前无创鉴别。模型在训练集与验证集中曲线下面积(AUC)分别达0.889和0.895,可有效避免32%低风险患者不必要手术,为精准诊疗提供新策略。

  
引言
肾无可见脂肪错构瘤(RH-WVF)作为来源于血管周上皮样细胞的间质性肾肿瘤,是临床最常见的良性肾肿瘤。约5%的RH-WVF因脂肪含量不足无法通过传统影像学方法识别。而缺乏脂肪成分的错构瘤或主要由平滑肌组织和低脂肪血管组成的RH-WVF,因其CT影像特征与早期肾细胞癌相似,易与均质透明细胞肾细胞癌(hm-ccRCC)混淆。近年来hm-ccRCC发病率持续增长且保持高死亡率,占全球所有恶性肿瘤的2.4%。若早期hm-ccRCC能及时接受手术切除或化疗,可有效控制疾病进展并改善预后。然而,RH-WVF与hm-ccRCC存在诸多重叠的影像学特征,尤其与无明显坏死、囊肿或出血的hm-ccRCC鉴别时,常依赖活检或手术进行诊断,导致RH-WVF患者面临误诊或过度治疗的风险。因此,术前区分良性RH-WVF与恶性hm-ccRCC仍是外科医生术前诊断的难点与挑战。
材料与方法
研究人群
本研究回顾性检索荆州市第二医院和长江大学附属荆州医院2015年1月至2024年2月病理数据库,确定经手术切除标本诊断为RH-WVF或hm-ccRCC的患者。纳入标准包括病理诊断为RH-WVF或hm-ccRCC、术前15天内接受非增强和增强CT扫描且图像质量满意、临床和病理资料完整。排除标准涵盖平扫CT图像可见病灶脂肪的RH-WVF患者、有明显坏死、囊肿或出血的hm-ccRCC患者、合并其他器官功能或器质性病变者以及术前接受化疗或放疗者。研究严格遵循TRIPOD声明和赫尔辛基宣言,并获得两家医院伦理委员会批准。
CT图像采集与纹理特征选择
采用ScintCare 128层或Hitachi LUNARIA 128层CT扫描仪进行肾区平扫CT扫描。扫描参数为管电压120 kV,管电流自动调节,矩阵512×512,层厚5 mm,采用多平面重建进行图像重建,重建层厚1 mm。将患者CT图像以DICOM格式导入ITK-SNAP 3.8.0软件,设置统一肾窗(窗宽1200 HU,窗位-500 HU)。由两名放射科医生采用盲法独立勾画肿瘤感兴趣区(ROI),在静脉期增强CT图像的轴位切片上手动勾勒肾肿块整个实性部分(排除囊性成分、坏死或周围正常肾实质),生成三维感兴趣体积。使用Pyradiomics包(版本3.0)从每个ROI中提取1050个组学特征,包括14个形状特征、18个一阶特征、16个灰度游程矩阵特征、16个灰度区域大小带矩阵特征、24个灰度共生矩阵特征、592个小波变换特征和370个高斯拉普拉斯特征。
尿液液相色谱-串联质谱分析
收集患者入院时的尿液样本(RH-WVF和hm-ccRCC各严格匹配10例),在4℃校准后以4000 rpm离心15分钟,取上清液于-80℃保存直至分析。采用timsTOF Pro质谱仪进行分析,通过并行累积连续碎裂(PASEF)模式操作,使用"limma"包分析差异表达蛋白,定义差异表达蛋白为|log2 FC|>2且P<0.05。最终通过酶联免疫吸附测定确定尿液中候选蛋白靶点,包括S100A14、FABP4和C3。
预测特征选择与模型构建
计算组内和组间相关系数(ICC),ICC≥0.75表明一致性良好。通过分层随机抽样以7:3比例将病例分为训练集和验证集。在训练集中,采用F检验和最小绝对收缩与选择算子(LASSO)回归分析筛选特征,选择最具预测性的特征。通过单变量分析比较两组间临床因素(包括临床数据、CT特征和尿液蛋白质组学)的差异,将具有统计学显著差异(P<0.05)的变量纳入初始模型。使用单变量分析中的显著变量作为输入,通过多元逻辑回归分析构建临床因素模型,计算每个独立因素的相对风险比(OR)和95%置信区间(CI)以构建列线图。通过首先开发单独的影像组学和蛋白质组学特征来构建复合集合,每个特征使用LASSO回归推导,系数用于加权个体特征。通过结合这两个特征评分使用多变量逻辑回归生成复合集合。此外,还构建了决策树预测工具,将具有统计学显著差异的影像组学和尿液蛋白质组学特征纳入决策树预测模型,使用基尼系数筛选和排序决策树特征,通过训练集的10折交叉验证获得决策树的最优参数。
机器学习预测模型性能评估
基于受试者工作特征(ROC)曲线下面积(AUC)评估机器学习预测模型在训练集和验证集中区分RH-WVF和hm-ccRCC的诊断性能。通过计算整个队列中一系列阈值概率的净收益进行决策曲线分析,以评估列线图的临床有效性。使用DynNom工具测试内部验证队列,将性能指标与传统诊断方法进行比较。使用验证队列的约登指数(灵敏度+特异性-1)对高风险与低风险组进行分类,确定120总分(对应65%预测概率)为最佳截断值。
统计分析
使用R统计软件(版本4.2.3)进行统计检验和数据可视化。采用卡方检验或Fisher精确检验(分类变量)和Mann-Whitney U检验(连续变量)评估两组间临床因素差异。使用单因素方差分析比较每个影像组学特征在RH-WVF和hm-ccRCC之间的判别价值。使用"glmnet"和"pROC"软件包进行LASSO回归模型分析和绘制ROC曲线,"rms"软件包用于列线图开发和校准曲线绘制,Delong检验用于估计不同模型间AUC值的差异。双侧P值<0.05认为有统计学意义。
结果
患者基线特征
共筛选出371例合格患者,通过分层随机抽样以7:3比例分配(训练队列259例;验证队列112例)并进行组间影像组学和尿液蛋白质组学比较。在训练集中发现7个特征参数在组间存在显著差异(P<0.05),包括2个一阶特征、1个二阶特征和4个共生灰度矩阵。验证队列中也观察到相同趋势,表明影像组学特征在RH-WVF和hm-ccRCC之间具有显著区分特性。对hm-ccRCC和RH-WVF患者尿液样本进行4D无标记定量蛋白质组学分析,揭示113个差异表达蛋白,其中70个蛋白(FC>1.5)被鉴定为上调,43个被鉴定为下调(FC<0.5)。最终选择前7个蛋白作为RH-WVF和hm-ccRCC的潜在诊断生物标志物。
预测特征选择
通过标准化训练数据集并进行Pearson相关系数热图分析,确定与疾病最密切相关的变量。使用10折交叉验证确定最优惩罚参数λ,最终选择影像组学评分、S100A14、FABP4和C3作为预测变量构建机器学习模型。
多组学预测模型构建
多变量分析显示影像组学评分、S100A14、FABP4和C3是区分RH-WVF和hm-ccRCC的独立预测因子。基于预测因子构建可视化预测模型列线图,所有预测因子被分配数值并在列线图中量化,计算总风险评分。校准曲线显示C指数高达0.816,表明基于上述预测因子构建的预测模型具有理想且可观的预测性能。决策树预测模型经过"剪枝"和"迭代"后选择四个预测因子作为模型构建参数,决策树在区分RH-WVF和hm-ccRCC方面也显示出稳健的诊断性能,C指数为0.799。
机器学习模型性能
在训练和测试队列中,列线图预测RH-WVF和hm-ccRCC的AUC分别为0.889和0.895,差异有统计学意义(P=0.023)。相比之下,决策树在训练集和验证集中的AUC值分别为0.821和0.808。对于列线图预测模型,模型性能的校准曲线准确预测了RH-WVF和hm-ccRCC,决策曲线分析结果显示列线图在训练和测试队列中预测RH-WVF和hm-ccRCC均具有高净收益。
最优预测模型的临床实践与效能评价
基于"DynNom"软件包开发在线预测软件,输入患者影像组学和尿液蛋白质组学相关候选特征,可获得预测RH-WVF或hm-ccRCC的相应概率。列线图基于风险分层显示非常理想的判别效能和可信度。
讨论
RH-WVF和hm-ccRCC分别代表临床最常见的良恶性肾实性肿瘤,但因共享重叠影像特征,鉴别诊断一直非常困难。本研究开发的结合影像组学标签和尿液蛋白质组学的多组学预测模型显示出良好的预测价值,在训练和测试集中区分RH-WVF和hm-ccRCC的AUC值分别达0.889和0.895。与之前研究不同,本研究整合多模态纹理特征分析,如一阶和二阶特征融合共生灰度矩阵的多参数提取,可获得更多潜在高识别度预测生物标志物。基于列线图的可视化模式,多维影像组学评分和尿液标志物可实现0.895的预测效率和0.816的C指数,是非侵入性诊断中非常有前景的预测模型。
本研究开创性整合尿液蛋白质组学,尿液作为易获得的临床样本,在精准医学时代具有巨大潜力。从尿液样本中挖掘出的生物标志物在前列腺癌、糖尿病肾病、慢性肾病和肾细胞癌的非侵入性诊断开发中具有重要价值。本研究鉴定出一组高价值尿液蛋白质组学标志物,与影像组学结合对RH-WVF和hm-ccRCC实现极高预测性能。补体系统是免疫系统的一部分,也可影响癌症发展,C3、C3AR1和C5参与多种肿瘤的发生发展。与既往研究结果一致,生物标志物C3可为hm-ccRCC诊断新型工具开发提供理论支持。
脂肪酸结合蛋白4(FABP4)已被证明参与缺血/再灌注诱导的急性肾损伤和RH-WVF横纹肌溶解症的发病机制,靶向抑制FABP4可能是急性肾损伤的潜在策略。本研究同样从尿液蛋白质组学中筛选出FABP4并证实其良好预测效能。作为脂质结合分子伴侣,FABP4在脂肪细胞和巨噬细胞中高表达。推测FABP4在区分RH-WVF与hm-ccRCC中的良好诊断效能可能与脂质代谢相关,因FABP4是巨噬细胞内质网对脂质应激反应的强制性中间体,这在恶性肿瘤发生发展中得到广泛证实。S100A14蛋白是一种EF Ca2+结合蛋白,属于S100家族,在吞噬细胞胞质中丰富,通过与靶蛋白相互作用并调节其活性,在众多细胞过程(包括传递运动和危险信号)中至关重要。这些从尿液中获得的蛋白质组学分子标志物在预测RH-WVF和hm-ccRCC方面展现出优异预测性能。
研究局限性值得考虑。首先作为回顾性队列研究,未来需要前瞻性外部验证和更大样本的多中心研究。其次,本次影像组学获取主要依赖3D手动ROI分割,非常耗时复杂,未来应致力于开发具有良好可靠性和可重复性的肾实性肿瘤自动分割方法。第三,作为影像组学与尿液蛋白质组学的首次融合分析,未来需聚焦尿液多组学并整合多个候选标志物,以创建更优的诊断和治疗预测模型。
结论
本研究开发了基于CT的影像组学和尿液蛋白质组学,在术前区分hm-ccRCC与RH-WVF方面表现出良好预测性能。作为一种非侵入性定量方法,多组学机器学习可作为补充常规影像学方法的有效工具,用于临床决策过程,尽管在广泛应用于临床实践前仍需进一步验证。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号