编辑推荐:
当前,基于预定义基因集的预测模型在转化生物信息学领域应用广泛,但生物特异性和有效性存疑。研究人员分析肺癌、结直肠癌和肝癌(TCGA 数据),发现随机基因集也能成功分层患者,模型成功或源于统计偶然。该研究为改进模型提供方向,意义重大。
在生命科学和医学研究不断迈向精准化的当下,基因研究成为解开疾病奥秘的关键钥匙。基于预定义基因集的预测模型,如同一股新兴力量,在转化生物信息学领域迅速崛起。越来越多的研究借助与特定生物过程相关的基因集来构建模型,像是铁死亡(ferroptosis)涉及 728 个基因、乳酸化(lactylation)关联 374 个基因 。这些模型被广泛应用于疾病预后判断、诊断分类以及治疗反应预测等诸多方面。
然而,繁华背后却隐藏着重重危机。大量此类模型在生物学上的特异性和有效性并未得到充分验证。2024 年就有超过 1000 项相关研究发表,但许多模型只是表面上看起来 “有用”,却无法确定是否真正反映了疾病的内在机制。如果依据这些未经充分验证的模型来指导临床治疗,就如同在迷雾中驾驶飞机,充满了不确定性和风险,极有可能导致错误的诊断和治疗方案,延误患者的病情。
为了驱散这片笼罩在基因集预测模型上的迷雾,来自河南科技大学第一附属医院、解放军医学院以及山东第一医科大学的研究人员 Lijing Yang、Wenbo Zhao、Min Jiang 和 Xianqiang Liu 开展了一项意义非凡的研究 。他们将目光聚焦在肺癌、结直肠癌和肝癌这三种死亡率极高的癌症上,借助癌症基因组图谱(The Cancer Genome Atlas,TCGA)的数据宝库,试图揭开基因集预测模型的真实面纱。
研究人员首先对每种癌症类型进行单变量 Cox 回归分析,从而找出与患者生存显著相关的基因。其中,结直肠癌有 2011 个相关基因,肺癌有 2211 个,肝癌则多达 6324 个。随后,他们从这些基因中随机挑选不同规模(20 - 500 个基因)的基因集,针对每种癌症重复这一过程 100 次。令人惊讶的是,几乎所有随机挑选的基因集都能成功地依据患者的生存结局进行分层。而且,随着基因集里基因数量的增加,模型的表现似乎 “越来越好”,在三种癌症类型中,更大的基因集都呈现出更高的准确性,具体体现在更高的受试者工作特征曲线下面积(AUC)值、风险比(hazard ratio,HR)以及更显著的 p 值 。
这一结果就像一把手术刀,精准地剖析出当前基因集预测模型存在的严重问题。它表明,许多基因集模型的成功或许并非源于真实的生物学机制,而更可能是统计上的巧合或者模型本身的灵活性所致。也就是说,这些模型看似在数据上表现出色,但实际上可能并没有真正抓住疾病的核心本质。此外,当前预测模型还有一个重大缺陷,那就是缺乏正常(健康)对照数据。在 TCGA 的数据中,大多数肿瘤数据集都缺少与之匹配的正常组织样本。这就好比在一场比赛中,没有了参照标准,使得研究人员难以从复杂的分子信号中分辨出真正与疾病相关的信息,大大降低了计算模型的生物学相关性 。
这项研究的意义非凡。它为后续研究敲响了警钟,提醒科研人员不能仅仅满足于模型在统计上的显著性,而要更加注重生物学上的可解释性和机制研究。只有这样,才能确保新的预测模型真正推动疾病生物学的发展,最终为患者带来更好的治疗效果和生存希望 。该研究成果发表在《Journal of Translational Medicine》上,为该领域的研究指明了新的方向。
在研究方法上,研究人员主要运用了以下关键技术:一是利用 TCGA 数据库获取肺癌、结直肠癌和肝癌的相关数据,这些数据涵盖了大量患者的基因信息和临床资料;二是进行单变量 Cox 回归分析,以此筛选出与患者生存显著相关的基因;三是通过随机选取不同规模基因集并多次重复实验的方式,探究基因集规模对模型性能的影响 。
下面来看具体的研究结果:
- 基因集规模与模型性能的关系:通过对不同规模基因集的多次随机实验,研究发现几乎所有随机选取的基因集都能成功对患者生存结局进行分层。并且,随着基因集里基因数量增多,模型性能显著提升,在肺癌、结直肠癌和肝癌中,均表现为更高的 AUC 值、HR 值以及更显著的 p 值 。这一结果揭示了当前基因集预测模型可能存在的问题,即模型成功可能是由于统计因素而非真正的生物学机制。
- 正常对照数据缺失的影响:研究指出,TCGA 中大多数肿瘤数据集缺少匹配的正常组织样本,这种正常对照数据的缺失引入了系统偏差,使得研究人员难以区分疾病特异性分子信号和背景噪声,进一步降低了计算模型的生物学相关性 。这凸显了在基因集预测模型研究中纳入正常对照数据的重要性。
研究结论和讨论部分再次强调,尽管基因集预测模型在某些情况下可以作为有价值的探索工具,比如为疾病相关通路研究提供假设、指导基础研究,但目前存在的问题不容忽视。未来的研究应当增加多样化的患者队列,并确保有合适的正常对照样本。对于基因集模型,即便在统计上表现良好,也必须经过全面的生物学验证才能在临床上具有意义。研究人员还建议整合多组学数据(如基因组学、转录组学、蛋白质组学和代谢组学),这样可以更全面地理解疾病生物学,减少假阳性结果,细化疾病亚型分类。同时,采用直接实验验证方法,像功能检测和单细胞转录组分析,能进一步验证模型中的基因集是否真正影响疾病生物学。此外,运用更严格的统计方法,例如置换检验、交叉验证和独立数据集验证等,可有效防止模型过拟合,确保模型的预测能力具有普遍性 。这项研究为基因集预测模型的发展和完善提供了重要的参考依据,对推动精准医疗的发展具有重要意义。