编辑推荐:
为解决乳腺癌研究中现有蛋白群落分析方法主观且未考虑蛋白序列信息的问题,研究人员开展了利用图神经网络(GNN)对乳腺癌蛋白群落进行分层映射的研究。结果构建出分层树,识别出潜在生物标志物及治疗药物。这为乳腺癌预后和治疗提供了新视角。
在癌症的众多类型中,乳腺癌(Breast Cancer,BC)如同一个 “隐匿的杀手”,悄然威胁着全球女性的健康。它不仅是女性群体中确诊率最高的癌症,更是导致癌症死亡的主要原因之一。随着高 - 通量测序技术的发展,大量肿瘤遗传和蛋白质组学数据涌现,犹如一座蕴藏着无限宝藏却难以开采的矿山,如何从这些海量数据中挖掘出有价值的信息,成为了癌症研究的关键难题。
传统的研究方法,在面对乳腺癌的复杂性时,显得有些力不从心。以往孤立分析基因的方式,就像是在黑暗中摸索,只能看到局部的 “星星点点”,无法准确反映乳腺癌系统层面生物学的 “全貌”。例如,一些低频率突变的基因,在单个研究中可能被忽视,但它们或许在整个乳腺癌的发展进程中起着至关重要的作用。而将基因 - level 生存风险或突变整理成基因集,虽然在一定程度上有所帮助,但现有的研究仍存在局限性,如突变与临床关联不紧密、构建层次结构时依赖手动调整超参数等问题。
为了攻克这些难题,来自加拿大温尼伯大学(University of Winnipeg)和曼尼托巴大学(University of Manitoba)的研究人员 Xiao Zhang 和 Qian Liu 展开了深入研究。他们的研究成果发表在《BMC Bioinformatics》上,为乳腺癌的研究开辟了新的道路。
研究人员运用了多种关键技术方法来开展此项研究。首先,利用预训练的深度学习模型 Evolutionary Scale Modeling(ESM)-1b Transformer 从蛋白质氨基酸序列数据中提取 1,280 个数值特征 。接着,将这些特征与已有的蛋白质 - 蛋白质相互作用(Protein - Protein Interaction,PPI)数据相结合,构建出亲和图。然后,以基因本体(Gene Ontology,GO)术语为指导,借助图神经网络(Graph Neural Network,GNN)构建乳腺癌蛋白质群落 / 生物系统的分层树 。最后,运用 HiSig 方法确定乳腺癌蛋白质群落 / 生物系统中的临床热点。研究中使用的数据来源广泛,包括从 Uniport 数据库下载的蛋白质序列数据、从 Zheng 等人的论文中获取的 PPI 和基因 - level 突变数据等。
下面来看具体的研究结果:
- 模型性能优异:研究人员提出的 MPGNN - HiLander 模型在各项指标上均显著优于 CliXO、GCN - V 和 GCN - V + E 等基线模型。这表明该模型在处理图结构的乳腺癌 PPI 数据方面具有强大的能力,能够更准确地识别蛋白质系统之间的关联,为后续研究奠定了坚实基础。
- 识别生物系统和临床热点:MPGNN - HiLander 模型构建的分层树(HOST)包含 878 个生物系统,经过修剪后,剩余 249 个生物系统和 191 个临床热点。其中,有 131 个生物系统处于显著生存压力下,60 个处于显著突变压力下,16 个同时受到生存和突变压力 。例如,HOST:280 系统包含 BRCA1 和 BRCA2 基因,这进一步验证了模型的有效性。
- 发现潜在生物标志物:通过 HiSig 分析和 logrank 检验,结合乳腺癌细胞系的基因依赖性,确定了 3 个具有显著预后价值的生物系统:HOST:280、HOST:37 和 HOST:861 。其中,HOST:37 和 HOST:861 分别包含 SUPT6H 和 RAD21 基因,这两个基因虽突变率相对较低,但在乳腺癌预后中具有重要意义,有望成为新的生物标志物。
- 筛选潜在治疗药物:对 HOST:37 系统进行分析,发现 115 种化学扰动剂可引起基因扰动,其中有 38 种 FDA 批准的药物 。除了已用于乳腺癌治疗的药物外,还筛选出了 3 种具有高治疗价值的药物:巯基嘌呤(Mercaptopurine)、吡格列酮(Pioglitazone)和秋水仙碱(Colchicine),这些药物为乳腺癌的治疗提供了新的选择。
在研究结论和讨论部分,此次研究具有多方面的重要意义。从模型角度来看,基于 GNN 的分层聚类模型能够成功地从蛋白质序列数据、PPI 数据和 GO 注释数据中识别出分层结构的蛋白质系统,有助于系统地理解乳腺癌的异质性 。在生物标志物方面,研究确定了多个具有潜在预后价值的生物系统和基因,如 HOST:37、HOST:861 以及其中的 SUPT6H 和 RAD21 基因,它们有望成为新的乳腺癌预后生物标志物 。在治疗方面,筛选出的 FDA 批准药物,尤其是巯基嘌呤、吡格列酮和秋水仙碱,为乳腺癌的治疗提供了新的潜在药物选择,有望通过进一步研究将其应用于临床,改善乳腺癌患者的治疗效果和预后情况。
然而,研究也存在一些局限性。例如,为匹配 GO 注释,减少了蛋白质和蛋白质相互作用的数量,可能导致部分信息丢失;分层树注释和数据可视化需要手动操作,难以进一步简化流程。未来的研究可以朝着纳入更多实验,在乳腺癌细胞系和其他肿瘤模型上测试药物反应信息的方向展开,以进一步完善对乳腺癌的认识和治疗策略。
总体而言,这项研究利用图神经网络对乳腺癌蛋白群落进行分层映射,为乳腺癌的预后和治疗提供了新的视角和潜在的生物标志物及治疗药物,虽然存在不足,但为后续研究指明了方向,具有重要的科学价值和临床应用前景。