编辑推荐:
在精准医学中,多组学数据整合与解读面临难题,为解决假设 / 锚定靶点引导及通用多组学数据分析问题,研究人员开展 M3NetFlow 模型研究。结果显示该模型预测精度高,能识别关键靶点和通路,为多组学研究提供新方法。
在当今生物医学研究领域,多组学数据可谓是一座蕴藏着无限宝藏的矿山。随着技术的飞速发展,遗传、表观遗传、转录组和蛋白质组等多组学数据集不断涌现,它们就像一把把钥匙,试图打开复杂疾病机制的大门,为精准医学的发展提供关键线索。比如癌症基因组图谱(TCGA)项目,生成了超 20,000 个样本的多组学数据,助力人们探索癌症的奥秘;还有阿尔茨海默病(AD)相关的多组学数据,也为揭示该疾病的发病机制带来了希望。
然而,这座 “矿山” 虽然充满价值,但开采起来却困难重重。多组学数据的整合与解读成为了横亘在科研人员面前的巨大挑战。细胞信号系统中众多蛋白质之间存在着复杂且密集的信号相互作用,从这些海量数据中挖掘出核心疾病信号通路,就如同在错综复杂的迷宫中寻找出口,难度极大。此外,现有模型在处理这些数据时也存在诸多不足,比如无法很好地将结构化信号数据融入模型,一般的图神经网络(GNN)模型存在表达能力受限、过平滑等问题。
为了攻克这些难题,华盛顿大学圣路易斯分校(Washington University in St. Louis)的研究人员开展了一项极具创新性的研究,他们提出了一种全新的图 AI 模型 ——M3NetFlow(多尺度多跳多组学网络流,Multiscale Multi-hop Multi-Omic NETWork Flow)。这一研究成果发表在《iScience》杂志上,为多组学数据分析带来了新的曙光。
研究人员在开展这项研究时,运用了多种关键技术方法。他们整合了来自多个公开数据库的多组学数据,包括癌症细胞系和 AD 样本的相关数据。在模型构建方面,使用 PyTorch 和 Torch Geometric 框架进行实现。采用 5 折交叉验证评估模型性能,并通过计算皮尔逊相关系数和准确率等指标来量化模型预测效果。
下面来看看具体的研究结果:
- 实验设置:针对药物组合协同评分预测任务,研究人员使用了 NCI ALMANAC 和 O’Neil 两个数据集,其中包含 2,788 个和 1,008 个样本,选取了 1,489 个蛋白质,每个蛋白质由 6 种组学特征描述。对于 AD 样本分类任务,从 ROSMAP 数据库获取 138 个样本(74 个 AD,64 个对照),随机选取 64 个 AD 和 64 个对照样本组成平衡数据集,选取 2,099 个蛋白质,每个蛋白质由 10 种组学特征描述。
- 超参数设置:模型训练时,学习率初始设为 0.002,在特定 epoch 阶段逐渐降低,60 个 epoch 后设为 0.0001,使用 Adam 优化器。经验性地设置 κ 跳子图消息传播K=3(3 跳),全局双向消息传播L=3(3 层)。
- M3NetFlow 提高预测准确性:通过 5 折交叉验证评估模型性能,在 NCI ALMANAC 数据集上预测的平均皮尔逊相关系数约为 61%,O’Neil 数据集约为 64%,ROSMAP 数据集的平均预测准确率约为 66%。与其他深度学习模型(如 GCN、GAT 等)相比,M3NetFlow 的性能有显著提升。
- M3NetFlow 通过注意力分数对重要靶点和相互作用进行排序:在预测药物组合协同方面,基于节点重要性分数,研究人员发现协同药物组合的靶点在多数细胞系(90%)中具有更高的重要性分数。在 AD 相关研究中,通过设置筛选条件,确定了 100 个潜在的 AD 重要基因,其中 28 个基因经过进一步筛选后进行通路富集分析,发现这些基因涉及多个与 AD 相关的信号转导通路,如 B 细胞受体(BCR)和 T 细胞受体(TCR)信号通路、核因子 κB(NF-κB)信号轴等。
研究结论和讨论部分意义重大。M3NetFlow 模型能够有效整合和分析多组学数据,在药物组合协同评分预测和 AD 样本分类等任务中表现出色,预测准确性高,还能识别出关键的靶点和相互作用。不过,该研究也存在一些局限性,例如需要评估更多的信号通路和蛋白质 - 蛋白质相互作用,探索更多有生物学意义的特征等。但总体而言,M3NetFlow 模型为多组学数据分析提供了一种创新方法,为精准医学的发展奠定了更坚实的基础,有望推动未来生物医学研究取得更多突破。