编辑推荐:
为解决骨肉瘤预后预测及个性化治疗难题,研究人员基于 138 例样本基因表达数据,利用 66 种机器学习算法组合构建 MLDPS。结果显示其能有效分层风险,预测生存及免疫治疗响应,为临床提供新工具。
骨肉瘤作为一种好发于儿童和青少年的侵袭性骨恶性肿瘤,因预后差、死亡率高,长期以来临床缺乏精准有效的预后评估工具和个性化治疗策略。传统的 TNM 分期系统难以捕捉肿瘤的分子复杂性和异质性,而现有基于单一生物通路(如糖酵解、免疫微环境)的预后模型存在泛化能力不足、过度拟合等问题,导致临床实践中常出现治疗不足或过度治疗的情况。因此,开发一种整合多维度数据、具备高预测准确性的新型预后模型,成为提升骨肉瘤诊疗水平的关键科学问题。
为攻克这一难题,赣南医科大学第一附属医院、赣州市人民医院等国内研究机构的研究人员开展了相关研究。他们基于 TARGET 和 GSE21257 两个多中心队列的 138 例骨肉瘤样本基因表达数据,通过整合机器学习算法与生物信息学分析,构建并验证了一种名为 MLDPS(机器学习衍生预后签名)的新型模型。该研究成果发表在《Scientific Reports》,为骨肉瘤的精准医疗提供了重要突破。
研究人员采用的关键技术方法包括:①样本队列整合:收集 TARGET(85 例)和 GSE21257(53 例)数据集,经批次效应去除后合并为包含 14,174 个基因的分析队列;②单变量 Cox 回归分析:筛选出 14 个一致性预后相关基因(CPSGs),其中 12 个风险基因、2 个保护基因;③机器学习建模:利用 10 种算法(如 LASSO、随机森林 RSF)的 66 种组合构建模型,通过平均 C-index(0.866)筛选出最优的七基因签名(CTNNBIP1、CORT、DLX2、TERT、BBS4、SLC7A1、NKX2-3);④多维度验证:通过 ROC 曲线、Kaplan-Meier(KM)生存分析及与 10 种已发表模型的对比,评估 MLDPS 的预测效能;⑤免疫微环境与药物敏感性分析:利用 IOBR、TIDE 等工具分析风险评分与免疫浸润、免疫治疗响应及药物敏感性的关联。
研究结果
1. MLDPS 的构建与预测效能
通过 LASSO 和 RSF 算法组合,从 14 个 CPSGs 中筛选出 7 个核心基因构建 MLDPS。在三个队列(TARGET、GSE21257、合并队列)中,MLDPS 对 1 年、3 年、5 年总生存(OS)的预测 AUC 范围为 0.852-0.963,显著优于 10 种已发表模型(如 PMID34894177 的六基因模型),其 C-index 在各队列中均排名第一,表明其具有更强的鲁棒性和泛化能力。KM 曲线显示,高风险组患者 OS 显著差于低风险组(P<0.0001),且转移风险更高。
2. 生物学机制与信号通路
GO 富集分析显示,CPSGs 主要富集于 “模式规范过程”“线粒体内膜”“转录共激活因子结合” 等生物过程和分子功能;KEGG 分析揭示 “精氨酸和脯氨酸代谢” 通路为关键通路。进一步通过基因集变异分析(GSVA)发现,高风险组中核糖体生物发生、rRNA 加工等通路显著激活,可能与肿瘤细胞增殖和代谢异常相关。
3. 免疫微环境与治疗响应
免疫浸润分析表明,高风险组的 ESTIMATE 评分、免疫评分等显著降低,呈现免疫抑制微环境特征。然而,肿瘤免疫功能障碍和排除(TIDE)评分显示,高风险组患者对免疫治疗的响应率更高(TIDE 评分 < 0),提示其可能更受益于免疫检查点抑制剂治疗。药物敏感性分析显示,高风险组对 ABT737 等药物更敏感,而低风险组对 Ribociclib 等药物敏感,为个性化化疗方案提供了依据。
4. 临床特征与模型独立性
单变量 Cox 回归证实,MLDPS 风险评分、转移状态为独立预后因素,而性别、年龄无显著影响。结合临床病理特征,MLDPS 可有效辅助临床进行风险分层和治疗决策。
结论与意义
本研究开发的 MLDPS 模型通过整合多中心数据和机器学习算法,首次构建了基于七基因签名的骨肉瘤预后模型,其预测准确性和临床实用性显著优于现有模型。该模型不仅能精准分层患者风险、预测生存结局,还可揭示肿瘤免疫微环境特征及药物敏感性差异,为骨肉瘤的个性化治疗提供了 “一站式” 解决方案:①高风险患者可通过强化监测、免疫治疗或敏感药物提升疗效;②低风险患者可避免过度治疗,降低毒副作用和医疗成本。此外,研究发现的关键基因(如 TERT、CTNNBIP1)及通路(核糖体生物发生)为深入探索骨肉瘤发病机制提供了新靶点。尽管研究仍需更大样本前瞻性验证及机制实验支持,但其建立的 “数据驱动 - 模型构建 - 临床转化” 研究范式,为其他恶性肿瘤的精准医疗研究提供了重要参考,有望推动骨肉瘤诊疗进入 “机器学习辅助决策” 的新时代。