基于深度强化学习识别透明细胞肾细胞癌潜在风险基因:开启肾癌精准诊疗新征程

《Nature Communications》:

【字体: 时间:2025年04月16日 来源:Nature Communications

编辑推荐:

  透明细胞肾细胞癌(ccRCC)是肾癌最常见类型,现有风险基因识别方法存在局限。研究人员开展基于深度强化学习识别 ccRCC 风险基因的研究,提出 RL - GenRisk 方法。该方法性能优异,还验证了 EGFR 和 PCLO 等风险基因,为 ccRCC 诊疗提供新方向。

  在癌症的众多类型中,肾癌是全球范围内常见的癌症之一,而透明细胞肾细胞癌(ccRCC)又在肾癌中占据主导地位,约占所有肾癌病例的 80%。它具有很强的侵袭性,免疫浸润程度高,超过 30% 的患者会发生转移,这也是导致患者死亡的重要因素。尽管目前有一些药物用于 ccRCC 的治疗,但由于其异质性,治疗效果并不理想。
为了更好地理解 ccRCC 的发病机制,实现早期诊断和治疗,确定其风险基因至关重要。此前,识别癌症风险基因的方法主要有基于突变数据的频率法,如传统统计方法聚焦于患者队列中突变频率高于对照组的基因 ,像 MutsigCV 通过比较观察到的基因突变与预定义的背景突变频率来识别风险基因;还有考虑蛋白质相互作用的方法,如 Muffinn 通过网络传播识别风险基因,综合考虑单个基因及其在蛋白质 - 蛋白质相互作用(PPI)网络中邻居的突变情况 。然而,频率法难以识别低突变频率但高风险的基因,而现有考虑蛋白质相互作用的方法,有的是无监督的,易受癌症遗传多样性和 PPI 网络噪声影响,有的监督方法则需要大量已知高置信度风险基因作为标记数据,目前已知的 ccRCC 高置信度风险基因数量有限,这使得预测 ccRCC 风险基因充满挑战。

为了解决这些问题,西北工业大学、天津大学、四川大学华西医院等机构的研究人员开展了基于深度强化学习识别 ccRCC 风险基因的研究。他们提出了 RL - GenRisk(Reinforcement Learning - based GENe RISK)方法,该研究成果发表在《Nature Communications》上。这一研究对于 ccRCC 的诊疗意义重大,有望为临床医生提供更精准的诊断依据,开发更有效的治疗策略,改善患者的预后。

研究人员在开展研究时,主要用到了以下关键技术方法:

  • 数据收集与预处理:收集了来自多个数据库的 PPI 网络数据和 ccRCC 患者的基因突变数据,对 PPI 网络进行预处理,去除部分长基因并应用扩散状态距离(DSD)指标减少噪声。
  • 构建模型:将 ccRCC 风险基因识别建模为马尔可夫决策过程,利用图卷积网络(GCN)学习状态表示,结合深度 Q 网络(DQN)进行风险基因识别,并设计了数据驱动的奖励机制。
  • 模型评估与验证:使用多个数据集和评估指标对 RL - GenRisk 及其他方法进行评估,通过生物信息学分析、细胞实验和动物实验对识别出的风险基因进行验证。

研究结果如下:

  • RL - GenRisk 框架:该方法将 PPI 网络和基因突变数据作为输入,把风险基因识别视为节点选择的马尔可夫决策过程。其中,策略由 GCN 和节点评估网络组成,通过最大化奖励来训练策略,采用 ? - 贪婪策略选择行动,最后根据 Q 值对 ccRCC 风险基因进行排序。
  • 性能评估:利用 RL - GenRisk 和其他 8 种方法对 ccRCC 基因进行识别,结果显示 RL - GenRisk 在所有使用的数据集上,均取得最高的折扣累积增益(DCG)、归一化 DCG(N - DCG)、DCG 曲线下面积(DCG - AUC)和平均精度(AP),性能优于其他方法。
  • 识别低频率突变基因的能力:分析 RL - GenRisk 识别低突变频率高风险 ccRCC 基因的能力,发现部分已知 ccRCC 风险基因在 IntOGen 数据库中的突变频率低于 5%。扰动 PPI 网络后,一些低突变频率的已知风险基因排名下降,表明 PPI 网络知识有助于检测这类基因。
  • 高置信度风险基因的生物学功能分析:对 RL - GenRisk 识别的前 20 个高置信度风险基因(HRGs)进行通路富集分析,发现它们显著富集于多种癌症相关通路,如 “透明细胞肾细胞癌通路” 等。在其他方法识别的基因中,RL - GenRisk 识别的前 20 个基因在 “透明细胞肾细胞癌通路” 中的富集最显著。
  • 差异表达分析:对 RL - GenRisk 识别的 8 个不在已知 ccRCC 风险基因数据库中的基因进行差异表达分析,发现 EGFR 和 PCLO 在肿瘤组织和正常组织之间存在显著差异表达。在单细胞 RNA - seq 数据分析中,EGFR 在肿瘤细胞中的表达明显高于其他细胞。
  • EGFR 与预后的关系:生存分析表明,EGFR 编码蛋白的表达水平与 ccRCC 患者的生存时间显著相关,高表达与较差的生存结局相关,说明 EGFR 可能是 ccRCC 患者的预后生物标志物。
  • EGFR 和 PCLO 对 ccRCC 进展的影响:细胞实验和动物实验结果显示,降低 EGFR 表达可促进 ccRCC 细胞凋亡,抑制集落形成和迁移;使用 EGFR 抑制剂厄洛替尼可有效增强凋亡和抑制迁移,在体内也能显著抑制肿瘤生长。敲低 PCLO 表达同样显著抑制 ccRCC 进展。

研究结论和讨论部分指出,RL - GenRisk 有效整合了网络知识和基因突变数据,在 ccRCC 风险基因识别任务上表现出色,成功识别出已知风险基因,并揭示了多个潜在风险基因,如 EGFR 和 PCLO,还通过实验验证了它们对 ccRCC 进展的影响。此外,研究人员还探索了将突变类型信息和致病性评分纳入 RL - GenRisk 的特征向量,发现添加这些特征对模型性能有不同影响,还需进一步探索。同时,研究分析了不同方法结果的重叠情况,发现不同方法识别的基因重叠度较低。RL - GenRisk 还可应用于其他癌症风险基因的识别,在膀胱癌和胶质母细胞瘤数据集中同样表现优异。

总的来说,这项研究提出的 RL - GenRisk 方法为 ccRCC 风险基因识别提供了新的有力工具,加深了人们对 ccRCC 发病机制的理解,为开发更有效的治疗策略奠定了基础,在癌症研究领域具有重要的理论和实践意义,有望推动癌症精准诊疗的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号