生物启动机器学习助力相关生物标志物的发现:开启精准医学新篇章

【字体: 时间:2025年02月08日 来源:npj Precision Oncology 6.8

编辑推荐:

  在精准医学中,识别基因依赖性的可靠生物标志物对制定个性化治疗策略至关重要。研究人员开展了生物启动机器学习以增强相关生物标志物发现的研究。结果表明该方法能有效识别相关生物标志物,为推进个性化医学带来希望。

  在生命科学领域,精准医学发展迅猛,它旨在依据患者个体的基因特征制定个性化治疗方案,其中,寻找可靠的基因依赖性生物标志物是关键一环。基因依赖性指细胞对特定基因维持生存或增殖的依赖程度,通过功能性基因组筛选(如 CRISPR-Cas9 或 RNA 干扰技术)可测量这种依赖,相关数据能为确定癌症治疗靶点提供重要依据。
随着高通量技术的兴起,生物信息学迎来了 “大数据” 时代,这为深入探究疾病分子机制提供了前所未有的机遇。然而,大量的数据也带来了难题,数据的高维度性以及分子特征间的共线性,使得传统统计方法在分析这些复杂数据集时力不从心。比如,在分析众多基因与疾病的关系时,传统方法难以准确筛选出真正关键的基因,容易遗漏重要信息。因此,开发新的计算方法迫在眉睫,以充分挖掘大数据的潜力,推动精准医学发展。

为了解决这些问题,来自贝勒医学院(Baylor College of Medicine)等机构的研究人员展开了深入研究。他们提出了一种创新的机器学习方法,将生物学知识融入最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)回归框架,以此增强相关生物标志物的发现能力。该研究成果发表在《npj Precision Oncology》上,为精准医学领域带来了新的突破。

研究人员在研究中运用了多种关键技术方法。首先,从癌症依赖图谱(Cancer Dependency Map,DepMap)获取基因依赖性数据、分子数据(如拷贝数变异(Copy Number Variation,CNV)和 RNA 表达谱)以及药物敏感性数据。然后,借助 R 语言和 glmnet 包实现 LASSO 回归模型,并通过十折交叉验证优化模型超参数。同时,从 STRING 数据库下载蛋白质 - 蛋白质相互作用(Protein-Protein Interaction,PPI)网络数据,用于生物启动正则化过程,以此确定特征特异性正则化因子。

下面来看具体的研究结果:

  • 方法概述:研究人员对常用的 LASSO 方法进行扩展,将 PPI 网络信息整合到正则化过程中。在传统 LASSO 模型通过交叉验证优化参数 λ 的基础上,引入新参数 Φ,代表每个特征与目标基因关联的先验证据强度。经交叉验证优化 Φ 后,得到生物启动 LASSO 模型,通过评估模型的特征系数来选择有意义的生物标志物。
  • 预测 MYC 依赖性:研究人员将该方法应用于 Chronos 依赖数据集,预测致癌基因 c-Myc(MYC)的依赖性。对 RNA 表达数据处理后,经 10 折交叉验证确定 Φ 值为 0.65,生物启动模型识别出 188 个相关生物标志物,其中 MYC 基因自身的 RNA 表达系数最大。与基线模型对比,生物启动模型能识别出如 STAT5A 和 NCBP2 等基线模型遗漏的生物标志物,且这些基因与 MYC 依赖性存在显著相关性,基因集富集分析也显示生物启动模型识别的生物标志物与转录和凋亡调控通路密切相关。此外,研究人员对该模型进行多项测试,结果表明其具有快速、可重复、对注释噪声鲁棒以及易适应不同网络注释的特点。
  • 预测 EGFR 依赖性:在 Demeter2(D2)依赖数据集上,研究人员寻找预测 EGFR 依赖性的 CN 生物标志物。由于 CNV 中的连锁不平衡使相关生物标志物提取困难,基线模型在染色体 11 区域选择了 USP35 基因,但该基因与 EGFR 可能并无实际关联。而生物启动模型识别出 GAB2 CN 为该区域最具信息的生物标志物,GAB2 作为衔接蛋白,在 EGFR 信号传导下游通路中发挥重要作用,其拷贝数增加会增强癌细胞对 EGFR 的依赖性。分析药物敏感性数据发现,GAB2 扩增的细胞系对 EGFR 抑制剂更敏感,这表明携带 GAB2 扩增的患者可能从 EGFR 抑制剂治疗中获益。
  • 生物信息指导的生物标志物共依赖性更强:研究人员利用 D2 依赖数据,对 453 个选择性依赖基因进行 CN 生物标志物分析。对比基线模型和生物启动模型得到的生物标志物,发现生物启动模型识别的生物标志物与目标基因的共依赖性显著更强。以 UTP4 为例,生物启动模型识别出的 DDX10 和 BRIX1 等生物标志物与 UTP4 的生物学功能直接相关,而基线模型未能识别出 UTP4,且所选生物标志物与 UTP4 生物学无关。

在研究结论与讨论部分,该研究开发并验证的生物启动 LASSO 模型,有效克服了传统统计方法在处理高维度和共线性 “组学” 数据时的局限,能够优先选择既具有统计学意义又具备生物学相关性的特征,有助于发现新的治疗靶点,推动精准医学发展。不过,该方法也存在一定局限性,比如对现有生物数据库的依赖,数据库的不完整性、误差等可能影响特征选择;此外,其计算效率和参数优化方面也有待提升。但总体而言,该研究为生物标志物的发现提供了新的思路和方法,未来可将生物启动概念拓展到其他机器学习框架,进一步探索其在更广泛问题中的应用,有望为癌症治疗和精准医学开辟新的道路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号