基于电子健康记录和基因数据构建及评估十癌种预测生存模型:开拓癌症预后新视野

【字体: 时间:2025年05月13日 来源:Discover Oncology 2.8

编辑推荐:

  癌症负担日益加重,现有癌症预后模型存在局限。研究人员基于 9977 例患者数据,开展十癌种预测生存模型的开发与评估研究。结果显示多数模型性能良好,还明确了重要预后特征。该研究为癌症治疗提供新工具,有助于改善患者预后。

  在全球范围内,癌症的阴影正不断扩大,预计到 2050 年,新增癌症病例将超过 3500 万。癌症是一种极为复杂的疾病,受到遗传、人口统计学、生物学、环境和生活方式等多种因素的综合影响 。随着电子健康记录系统的广泛应用以及基因数据收集技术的进步,大量的数据得以积累,这为深入研究癌症提供了新的契机。然而,传统的癌症预后模型大多依赖临床医生的经验、癌症分期和分级,或者采用如 Cox 比例风险回归等传统统计方法,这些方法在处理高维数据和非线性关系时存在明显的局限性。为了突破这些困境,更好地理解癌症预后并改善患者的治疗效果,来自伦敦大学学院健康信息学研究所(Institute of Health Informatics, University College London)等机构的研究人员开展了一项极具意义的研究,相关成果发表在《Discover Oncology》杂志上。
研究人员为了开发并评估针对十种常见癌症类型的预后生存模型,进行了多方面的探索。在数据方面,他们整合了来自 Genomics England 的 100,000 Genomes Project 的基因数据,以及 National Cancer Registration and Analysis Service、Hospital Episode Statistics 和 Office for National Statistics 提供的临床和人口统计数据,构建了包含 9977 例患者信息的样本队列,这些患者涵盖了膀胱癌、乳腺癌、结直肠癌、子宫内膜癌、胶质瘤、白血病、肺癌、卵巢癌、前列腺癌和肾癌十种癌症类型 。在技术方法上,首先进行了特征选择,从最初包含 500 多个特征的数据集中,通过数据类型转换、缺失值处理等方式筛选出合适的特征;接着对数据进行清洗,去除异常值;之后采用多种方法处理缺失数据,经过比较,最终选择多元特征插补(使用决策树回归器)作为缺失数据的处理方法;对于部分机器学习算法,还进行了特征缩放。在模型构建上,研究人员开发并比较了四种机器学习算法,分别是弹性网络 Cox 比例风险回归(Elastic Net Cox proportional hazards regression,CoxNet)、随机生存森林(Random Survival Forest,RSF)、梯度提升生存模型(Gradient Boosting Survival,GBS)和 DeepSurv 神经网络(DeepSurv neural network) 。

在模型评估环节,研究人员使用 Harrell 一致性指数(C-index)来衡量模型性能。结果显示,多数模型表现良好,C-index 值在 60% - 80% 之间,平均为 72%。不同机器学习算法在大多数癌症类型中表现相近,CoxNet 在乳腺癌、结直肠癌、子宫内膜癌和肺癌中表现最佳;RSF 在卵巢癌和前列腺癌中表现出色;GBS 在膀胱癌、胶质瘤、白血病和肾癌中表现突出;DeepSurv 的表现与其他方法相当,但在任何癌症类型中都未产生最佳模型 。基因数据的加入在子宫内膜癌、胶质瘤、卵巢癌和前列腺癌中提升了模型性能,不过在某些癌症中,其提升效果并不显著。特征缩放仅在部分癌症(如乳腺癌、肺癌和肾癌)中对模型性能有轻微改善。

在预后特征重要性分析方面,研究发现不同癌症类型最终模型中选择的特征数量有所差异,平均为 26 个。转诊途径和诊断年龄是所有癌症类型中都重要的特征,转诊途径不明的患者往往生存时间更短,而年龄越大,生存时间缩短的风险越高。此外,等待时间、癌症分期和分级、先前住院情况、合并症、放疗以及肿瘤突变负荷(Tumour mutational burden,TMB)、TP53 基因突变等都是重要的预后特征 。这些特征在不同癌症类型中的影响不尽相同,例如放疗在某些癌症中与较短生存时间相关,而在胶质瘤中则与较长生存时间相关。

在模型可解释性方面,研究人员通过多种方式进行了探索。他们绘制了预测生存曲线,展示了不同患者的生存概率随时间的变化情况,让医生和患者能够更直观地了解预后。还使用了基于 SHAP 值的瀑布图(Waterfall plot)来解释模型预测,展示每个特征对模型预测的贡献,虽然为避免患者身份识别,实际特征值未在图中显示,但这种方式仍有助于理解模型的决策过程 。

在讨论部分,研究人员指出该研究具有多方面的意义。从方法学角度,比较了不同的数据预处理方法,为后续研究提供了参考。研究发现的一些重要预后特征,如转诊途径、等待时间等,此前未被广泛研究,这些发现对于确定癌症预后具有重要价值。然而,研究也存在一定的局限性。数据方面,研究排除了更晚期的转移性癌症病例,部分癌症类型样本量较小,数据缺失情况较为严重;评估指标 C-index 也存在一定缺陷;此外,机器学习模型需要不断更新以适应数据的变化 。

总体而言,该研究构建的多种癌症类型的机器学习生存模型,在预测癌症预后方面表现良好,为临床实践提供了更准确的预后判断工具。同时,研究强调了早期癌症诊断和及时治疗的重要性,为癌症研究和临床治疗开辟了新的方向。未来,随着数据的不断完善和模型的持续优化,有望进一步提高癌症预后预测的准确性,为改善患者的生存质量和延长生存时间提供更有力的支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号