
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多组学通路分析(MPAC)揭示头颈鳞癌免疫应答亚群与预后相关蛋白
【字体: 大 中 小 】 时间:2025年09月12日 来源:Bioinformatics 5.4
编辑推荐:
为解决多组学数据整合与生物学解释难题,研究人员开发了MPAC计算框架,通过整合CNA和RNA-seq数据并利用通路先验知识推断蛋白活性,成功在头颈鳞癌中发现免疫应答患者亚群,鉴定出CD28、CD86等7个与生存预后相关的关键蛋白,为癌症精准分型提供新工具。
随着高通量测序技术的飞速发展,癌症研究已进入多组学时代。研究人员能够同时获取肿瘤样本的基因组拷贝数变异(CNA)、转录组(RNA-seq)、表观基因组、蛋白质组等多维数据。然而,这些海量数据蕴含着复杂且有时相互矛盾的生物学信息,如何有效整合这些多组学数据,从而全面捕捉细胞状态并揭示疾病机制,成为当前生物信息学领域的重大挑战。传统的单组学分析方法往往只能提供片面的视角,无法反映生物通路中多个分子协同作用的复杂调控网络。特别是在癌症研究领域,肿瘤的发生发展涉及多个生物学过程的失调,需要从通路层面进行整合分析才能深入理解其分子本质。
此前,虽然已有一些方法尝试进行多组学整合,如PARADIGM、MOMA和OncoSig等,但它们仍存在局限性。有的方法只关注转录调控主 regulator而忽略了通路下游的间接效应;有的方法推断的通路活性水平是抽象的统计量,缺乏明确的生物学解释且无法通过实验验证;还有的方法缺乏完整的下游分析流程,难以从推断的通路活性中识别具有临床意义的关键分子。因此,开发一个能够充分利用通路先验知识、提供生物学可解释结果且具有完整分析流程的计算框架显得尤为重要。
为了应对这些挑战,研究人员开发了多组学细胞通路分析(MPAC)计算框架。这项研究发表在《Bioinformatics》杂志上,旨在通过整合多组学数据和通路先验知识,推断蛋白质及其相关通路实体的共识活性水平,识别与临床相关的患者亚群和关键蛋白。
研究人员主要采用了以下几个关键技术方法:首先,利用来自TCGA的头颈鳞癌(HNSCC)患者的CNA和RNA-seq数据作为多组学输入;其次,采用PARADIGM的因子图模型整合通路先验知识(使用TCGA Pan-Cancer Atlas提供的通路网络)推断通路活性水平;第三,通过置换检验(100次置换)过滤随机因素产生的假阳性活性预测;第四,基于基因本体(GO)术语富集分析构建患者通路谱并进行患者分群;最后,通过生存分析和免疫细胞浸润分析(使用CIBERSORT方法)评估关键蛋白的临床意义。
3.1 MPAC预测了CNA或RNA-seq数据单独分析无法发现的免疫应答HNSCC群体
研究人员将MPAC应用于492例具有CNA、RNA-seq和总体生存数据的TCGA HNSCC患者。根据HPV感染状态将患者分为HPV+(89例)和HPV-(403例)两组,并进一步随机划分为探索集(71例HPV+和322例HPV-)和验证集(18例HPV+和81例HPV-)。MPAC在HPV+患者的探索集中识别出五个患者群体,其中群体I具有显著的免疫应答通路改变特征。这一免疫应答群体无法通过单独分析CNA或RNA-seq数据发现,证明了MPAC多组学整合分析的优势。
3.2 HPV+免疫应答群体中的蛋白与患者总体生存相关
对HPV+免疫应答群体(群体I,11例患者)的深入分析发现了四个通路子模块,包含八个关键蛋白,其中七个蛋白(CD28、CD86、TYK2、IL12RB1、LCP2、FASLG和CD247)在所有11例患者中均显示激活的通路水平。生存分析表明,这七个蛋白的激活通路水平与更好的总体生存率显著相关(log-rank p值从0.0033到0.17)。此外,这些患者的肿瘤样本中滤泡辅助T细胞、CD8+ T细胞、调节性T细胞以及M1和M2巨噬细胞的组成显著更高,表明免疫细胞浸润水平更高。
3.3 独立验证集证实了MPAC的免疫应答群体和关键蛋白
使用在MPAC模型开发和探索集分析过程中保留的独立验证集(18例HPV+患者)进一步评估了七个关键蛋白的普遍性。验证集中有6例患者被划分为免疫应答群体,其富集的GO术语与免疫应答相关。虽然由于样本量小而未达到统计显著性,但具有七个蛋白激活通路水平的患者显示出更好的生存趋势。免疫细胞组成分析也显示了与探索集一致的趋势,进一步支持了MPAC预测的可靠性。
3.4 MPAC相对于PARADIGM的优势
MPAC在PARADIGM的基础上进行了多项改进:使用数据驱动的方法定义基因的离散状态(基于肿瘤和正常组织样本),而非任意划分;内置置换检验过滤假阳性信号;专注于最大的患者特异性通路网络子集;提供完整的下游分析功能(包括定义改变的通路、预测患者群体和识别关键蛋白)。这些改进使MPAC能够识别出PARADIGM无法发现的免疫应答患者群体。
3.5 MPAC的稳健性分析
MPAC在不同设置下表现出良好的稳健性:使用30%或50%的样本仍能检测到免疫应答群体;置换次数可根据样本大小调整(小样本需要100次置换,大样本可减少至20-50次);RNA状态定义的阈值(默认2个标准差)可增加至3个,但降低至1个会得到不同结果;整合CNA和RNA-seq数据比使用单一数据类型性能更好;在缺乏HPV特异性通路信息时,建议按HPV状态分别分析。
此外,研究人员还将MPAC应用于另一种TCGA癌症类型——胆管癌,证明了该方法的普适性。MPAC在胆管癌中识别出的患者群体与先前仅基于RNA-seq数据的研究结果一致,但提供了更全面的多组学视角。
研究人员还开发了一个用户友好的R Shiny应用程序,允许用户交互式探索所有分析结果,包括查看任何感兴趣通路的推断通路水平、特定蛋白的分析结果(通路水平、生存关联和免疫细胞组成)以及通路状态可视化。
本研究开发的MPAC计算框架为多组学数据整合分析提供了强大工具。通过充分利用通路先验知识和严格的统计过滤,MPAC能够识别出具有生物学和临床意义的患者亚群和关键分子。在头颈鳞癌中的应用不仅发现了一个与免疫应答相关的患者群体,还鉴定出七个与患者生存和免疫细胞浸润相关的关键蛋白(CD28、CD86、TYK2、IL12RB1、LCP2、FASLG和CD247)。这些发现得到了独立验证集的支持,减少了偶然发现的可能性。
MPAC相较于PARADIGM等现有方法的多个改进,包括数据驱动的输入状态定义、内置置换检验、下游分析流程等,使其能够提供更可靠和生物学可解释的结果。MPAC的R软件包可通过Bioconductor获取,其用户友好的Shiny应用程序进一步增强了结果的可探索性。
尽管目前缺乏前瞻性患者队列来验证这些关键蛋白的临床价值,但本研究展示了MPAC在癌症精准分型和生物标志物发现中的应用潜力。随着多组学数据类型的不断丰富(如单细胞RNA-seq、空间转录组学、空间蛋白质组学等),MPAC框架有望进一步扩展以适应更多数据类型,为更广泛的生物医学研究提供支持。
总之,MPAC作为一个综合性的多组学通路分析工具,不仅推进了计算生物学方法学发展,也为理解癌症机制和改善患者分层提供了宝贵资源。该研究的成功实施体现了多学科合作的重要性,包括生物信息学、癌症生物学和临床医学的深度融合。
生物通微信公众号
知名企业招聘