《Advanced Biology》:Proteomic Signatures Over Age Reveal Significant Changes From Infancy Till Late Adulthood
ABSTRACT
生物标志物在药物开发和诊断中具有重要作用,有助于患者选择和疾病监测。缺乏年龄特异性蛋白质参考使得追踪与慢性疾病或治疗相关的模式变得复杂。这项探索性概念验证研究探讨了整个人类生命周期中血清蛋白质组与年龄相关的变化。使用邻近延伸分析法,我们测量了264名健康个体的血清免疫肿瘤面板,另外109名亚组测量了另一个面板,所有个体在采血时均无重大疾病,年龄从0天到88岁不等。免疫肿瘤面板的聚类分析显示两个簇:簇1包括≤11天儿童的样本,簇2包括从2个月到88岁年龄范围的样本。加权相关网络分析确定了五个蛋白质模块,其中四个显示特定通路的富集。器官损伤面板显示类似的与年龄相关的蛋白质变异。最后,我们确定了四种随年龄变化的蛋白质模式:恒定、增加、减少或U形,并定义了年龄特异性正常表达范围。总之,我们的研究结果表明,整个生命周期的健康衰老涉及蛋白质表达的改变,新生儿、儿童、成人和老年人存在不同的蛋白质谱。我们为整个生命周期中观察到的不同蛋白质模式提供了有价值的参考数据。
1 引言
免疫系统在整个生命过程中经历持续发育和分化,导致免疫相关蛋白水平的变化。了解衰老对免疫蛋白质组的影响对于预防疾病发病率和死亡率至关重要。值得注意的是,儿童的免疫反应与成人不同,生命早期严重依赖先天免疫反应。衰老过程中,通常在对病原体和共生微生物群暴露时产生稳健的免疫反应,从而降低感染易感性。然而,随着年龄增长,免疫系统发生实质性改变,导致不同的免疫细胞亚群变化以及分泌蛋白水平变化,表明存在严重功能改变。这导致在最近SARS-CoV-2大流行期间,儿童更可能经历无症状感染,而老年人更易发生严重感染。研究衰老过程中的免疫细胞及其与疾病的联系是免疫学的一个活跃研究领域。然而,关于循环血液中蛋白质水平的信息有限,特别是在新生儿中,通常使用脐带血作为代表,但已证明与新生儿血液不同。
“正常”衰老的特征是系统性炎症过程增加,伴随细胞衰老、免疫衰老、器官功能障碍和年龄相关疾病。免疫介导炎症疾病(IMIDs)可在所有年龄发生。然而,对于各种自身免疫疾病,已识别出疾病发病率最高的年龄窗口。例如,对于乳糜泻、炎症性肠病和血管炎,观察到两个疾病发病率高峰,即在儿童期或成年早期以及晚年。这些观察结果表明年龄特异性变化增加了发生IMIDs的可能性。因此,了解健康个体衰老过程中生物标志物的“正常”水平对于识别增强临床护理的生物标志物至关重要。
在这项探索性概念验证研究中,我们通过使用Olink技术测量0天至88岁健康个体血清样本中的178种蛋白质,表征了整个生命周期健康衰老的蛋白质组特征。我们的研究结果表明,在血清中测量的蛋白质中,健康个体在整个衰老过程中存在新颖且不同的蛋白质特征。
2 方法
2.1 健康个体样本
我们从PIENTER研究获得了110名健康个体的样本,其方法和研究人群已被详细描述。这些样本在我们的研究中被称为“全年龄段队列”。根据以下标准随机选择2017年获得的荷兰居民样本,年龄1-83岁:1)无任何医疗状况;2)无任何处方药。对于60岁以上参与者,我们额外允许使用抗炎药或抗病毒/抗生素药物(但采样前至少停药3个月)、使用胃保护剂/抗酸剂以及经历任何过敏或花粉热。为探索儿童期特异性特征,我们选择了每5岁年龄组10个样本。对于20岁及以上成年参与者,我们包括每10岁年龄组10个样本。为补充全年龄段队列中小样本量,我们采用混合抽样方法,包括乌得勒支大学医学中心部门内进行的临床研究中的健康个体。
从RESCEU项目(称为新生儿、儿童和老年人)中,选择了N=31名新生儿、N=21名儿童和N=12名老年人的血清样本。RESCEU联盟进行了两项前瞻性队列研究以确定婴儿和老年人RSV感染发生率。如果新生儿在随访期间未经历RSV感染,则选择出生后11天内通过毛细血管采血获得血清样本的个体。包括1-11个月大接受与感染无关的小手术的儿童血清样本。RESCEU研究期间未经历感染的老年人被纳入本研究。
儿童队列包括N=28名1-14岁健康儿童,纳入DIMER研究。DIMER研究是国家原发性免疫缺陷研究的一部分。健康个体是参与DIMER研究的患者的兄弟姐妹或在威廉敏娜儿童医院接受小手术的患者,排除了多次感染或免疫相关疾病患者。
我们还从内部健康供者计划获得了34份血清样本,年龄20-71岁,在稿件中称为中年人,经UMCU伦理委员会批准。
中年人2队列包括N=28份血清样本,来自年龄范围19-68岁的常见变异型免疫缺陷病队列。健康个体从患者家庭成员中招募。所有参与者或参与儿童法定监护人签署知情同意书。认为自己是健康个体且在采样时未经历显著免疫介导炎症反应的个体被纳入为“健康个体”。每个队列样本数量和年龄分布概览见图S1。
2.2 Olink测量
使用基于邻近延伸测定技术的Proseek多重面板测量蛋白质浓度,由乌得勒支UMC的Olink提供商执行。选择这些面板是因为我们旨在研究衰老过程中的炎症蛋白、免疫调节蛋白以及调节和信号相关蛋白。所有样本使用IO面板测量,仅全年龄段队列样本使用OD面板测量。简言之,在PEA期间,一对寡核苷酸标记的抗体探针与其各自蛋白质结合,允许分子报告基因杂交。随后使用实时PCR定量扩增子。原始定量周期值被标准化并转换为标准化蛋白质表达单位,以log2尺度表示,其中NPX值高一个单位代表测量蛋白质浓度加倍。每个板上使用Olink标准质量控制协议进行质量控制。由于测量在几个月内进行,我们使用内部方法“BAMBOO”进行批次效应校正,该方法使用每个板上包含的12个桥接对照。低于检测限的测量值被LOD替换用于下游分析。
2.3 统计分析
为降低维度改善可视化并最小化噪声,从而促进主要簇识别,使用主成分分析后进行k均值聚类使用解释数据90%变异的PC进行。使用轮廓标准确定最佳簇数。主要驱动因素基于前两个PC的因子载荷定义。为验证这些簇的稳健性并可视化样本水平蛋白质关系,随后使用Ward距离度量进行层次聚类并表示为热图。通过校正错误发现率后的T检验识别簇间差异表达蛋白质。调整p值<0.05的蛋白质被认为显著不同。使用火山图可视化簇间所有蛋白质比较结果,其中报告倍数变化和调整p值。倍数变化低于-1或高于1且调整p值<0.05的蛋白质在火山图上以颜色报告。
为进一步表征整个生命周期蛋白质组特征变化,我们进行了加权相关网络分析,这是转录组学中常用的共表达网络方法。该方法使用蛋白质间相关性定义网络,蛋白质被分组为可测试与年龄和性别等特定变量相关/关联的模块。简言之,基于其Pearson相关值计算所有样本中每对蛋白质的相似性矩阵。然后,相似性矩阵转换为邻接矩阵,并计算拓扑重叠矩阵和相应相异性值。最后,采用动态树切割算法检测蛋白质共表达模块。模块以0.25切割高度和最小模块大小10个蛋白质构建。我们使用有符号相关矩阵和软阈值4。使用String-db.org以及使用KEGG和GO术语的基因集富集分析研究通路富集。
为描述不同蛋白质随年龄变化,对数据拟合二次多项式函数,并为每个蛋白质定义最佳拟合周围的95%置信限。
两个Olink面板之间有6种蛋白质重叠。除PTN和NOS3外,大多数蛋白质在两个面板间相关性高。对于最后分析,定义整个生命周期轨迹,使用免疫肿瘤面板内获得的NPX值。
所有分析使用R进行。
3 结果
3.1 人群特征
共纳入来自5个独立队列的264份血清样本。每个队列人口统计学显示在表S1中。总计约半数样本来自女性,5个队列中3个男女比例均衡。两个队列包含显著更多女性参与者:中年和中年2队列分别为86.7%和71.4%。总年龄范围0至88岁,44%样本来自18岁以下个体,来自3个不同队列。五个健康队列获得的样本显示年龄分布重叠和性别平衡。图1呈现不同队列及其各自年龄范围,以及测量的Olink面板和 resulting 数据上执行的分析。
3.2 免疫相关蛋白定义健康个体的两个不同簇
我们首先使用无监督方法分析IO面板92种蛋白质的蛋白质谱。主成分分析后k均值聚类显示2个簇,其中前两个PC解释数据约一半变异。簇1仅包含10个月大或更年轻个体,包括所有生命最初11天内采血个体,而簇2包含2个月至88岁个体。新生儿、儿童和老年人队列分布在2个簇之间。
然而,我们注意到全年龄段队列似乎与其他簇分离,尽管未定义单独簇。这种偏离的主要驱动因素是Caspase 8,与其它队列相比始终显示高2倍NPX值。该标志物因此显示该特定队列的明显批次效应,无法校正并在下一步分析中排除。PCA中另外两个主要驱动因素是IL8和IL1α,呈现与Caspase 8不同的表达模式。IL8水平跨年龄和队列变化很大,尽管具有相似年龄特征个体样本中全年龄段队列表达水平高于其他队列。IL1α水平在新生儿中高,在所有老年个体样本中较低。IL1α是将簇1与簇2拉开的主要驱动因素,其次是TNFRSF9、CD40L和TIE2的递减效应。当从数据集中移除Caspase 8时,我们可以定义与之前相同的2个簇,且全年龄段队列与簇2中其他队列重叠。第一个PC现在解释数据34.5%变异,而第二个PC解释11.3%。此外,我们观察到从簇1到簇2的年龄梯度,从图2D右下角到左上角,表明蛋白质表达随年龄变化。
总之,这些数据表明健康个体血清蛋白质水平随年龄增长表达不同,新生儿与其他个体之间观察到的差异最大。
3.3 层次聚类揭示跨衰老的不同免疫相关特征
由于PCA图显示从右下角到左上角的年龄梯度,我们执行层次聚类以验证聚类结果并可视化跨样本的单个蛋白质表达模式。再次,我们可以定义2个展示不同蛋白质谱的簇。新生儿样本和6岁以下儿童样本显示与6岁以上个体样本不同的特征。当我们按年龄类别对样本排序并仅创建蛋白质树状图时,这也清晰可见。当我们比较两个簇的蛋白质表达时,发现73种蛋白质显著不同,包括与簇2相比簇1中12种显著较低和61种显著较高。然而,我们未发现与这些蛋白质相关的通路富集。
总体而言,无监督方法揭示了健康个体免疫相关蛋白质的不同表达模式,幼儿与年长儿童和成人之间的差异最大。
3.4 相关网络分析定义免疫相关蛋白的多个模块
为进一步表征整个生命周期蛋白质组特征变化,我们进行了加权相关网络分析,一种常用的共表达网络方法。该方法使用相关性定义网络,蛋白质被分组为模块。
使用92种免疫相关蛋白质鉴定出五个模块。每个模块由特定通路定义。五个模块中四个与年龄相关。有趣的是,蓝色模块与年龄负相关,富集于胎盘、胎儿、女性内生殖器官和先天免疫相关蛋白质。黄色模块富集于炎症蛋白质,也与年龄负相关,而灰色模块富集于T细胞功能相关蛋白质,与年龄正相关。注意该模块中蛋白质呈现低簇内相关性,可能不代表有凝聚力的功能模块。青绿色模块与年龄和性别相关,但未发现该模块特异性蛋白质富集。仅棕色模块富集于血管发育、内皮和血小板迁移相关蛋白质,与年龄不相关。
总之,我们表明测量的92种免疫相关蛋白质可分为5个模块,其中4个与年龄相关,4个富集于健康个体特定免疫通路。
3.5 调节和信号相关蛋白也展现跨衰老的不同表达
对于全年龄段队列,我们还测量了OD面板的92种蛋白质,包括参与应激反应、细胞增殖调节、细胞周期和细胞死亡等生物过程的蛋白质。层次聚类显示3个具有不同蛋白质表达特征的簇。三个簇在性别分布上无差异,但簇1以年轻个体样本为特征,而其他两个包括老年个体样本。相当数量蛋白质在3个簇间显著不同。 notably,我们发现55种蛋白质在簇1和簇2间显著不同,68种蛋白质在簇1和簇3间显著不同。此外,47种蛋白质在簇2和簇3间显著不同。我们未发现这些蛋白质的富集通路。
使用WGCNA,我们探索了衰老过程中调节和信号相关蛋白质的表达。我们可以定义四个蛋白质模块。一个模块富集于参与对刺激和应激反应的蛋白质,与年龄负相关,另一个模块包括富集于信号受体结合的蛋白质,与年龄和性别负相关。最后两个模块未呈现任何特定通路富集,但均与年龄负相关。
总体而言,我们表明调节和信号相关蛋白质在健康个体中也呈现随年龄的不同表达模式。
3.6 衰老过程中的蛋白质表达动力学
由于我们证明了健康个体不同年龄组血清蛋白质组特征的改变,我们下一个目标是识别经历变化的特定蛋白质,量化这些变化程度,并建立从儿童早期到老年人年龄谱的蛋白质表达“正常范围”。该分析涉及总共178种独特蛋白质,包括两个面板中发现的六种蛋白质。
我们观察到描述特定蛋白质动力学的四种不同模式:随年龄恒定、随年龄减少、随年龄增加和U形。大多数具有减少模式的蛋白质呈现非线性行为。一些在生命最初20年快速减少,然后随年龄大多保持恒定,而其他呈指数减少。随衰老线性减少的蛋白质主要来自OD面板。在随衰老增加的蛋白质中,大多数线性增加,而7种蛋白质显示非线性增加。此外,OD面板的一种蛋白质在男性和女性中显示不同模式。虽然该蛋白质表达在男性中随年龄相对恒定,但在女性中呈现U形。我们观察到在最初20年减少,成年期相对恒定表达,60岁后轻微增加。
3.7 基准正常范围
基于观察到的模式,我们拟合二次多项式函数描述蛋白质表达随年龄变化,并使用最佳拟合周围95%置信限定义每个蛋白质随年龄的“正常范围”。每个蛋白质观察到的曲线提供关于所有年龄蛋白质表达模式的信息。
4 讨论
为有效利用蛋白质组学改善临床护理并增强药物开发和试验设计,了解整个生命周期健康衰老过程中生物标志物表达模式至关重要。在这项探索性概念验证研究中,我们分析了0天至88岁健康个体血清样本中与免疫反应、免疫肿瘤疾病或调节和信号通路相关的178种独特蛋白质。我们发现健康个体血清蛋白质水平随年龄增长表达不同,新生儿与其他个体之间观察到的差异最大。该结果通过k均值和层次聚类均发现。后者另外强调了每个年龄组不同的蛋白质,并发现与k均值聚类不同的簇,尽管清晰地将新生儿与其他年龄组分离。这种差异很可能是由于样本分组方法本身造成的。我们还表明测量的92种免疫相关蛋白质可分为5个模块,其中4个与年龄相关,4个富集于健康个体特定免疫通路。总体而言,我们表明调节和信号相关蛋白质在我们研究中的健康个体中也呈现随年龄的不同表达模式。
值得注意的是,我们使用新生儿血清样本而非脐带血样本,由于伦理和逻辑原因可用性不足,脐带血通常用于代表新生儿血液。然而,脐带血与新生儿血液不同。我们观察到衰老过程中蛋白质表达的显著差异,特别是在幼儿样本与成人相比之间。尽管这些结果并不令人惊讶,因为衰老不可能没有使新生儿和儿童成长为老年个体的发育过程。这些结果强调儿童在健康方面与成人不同,在成人中进行的观察不能直接外推至儿童或新生儿。然而,我们的数据未提供关于疾病中发生的变化在儿童和成人之间是否相似的见解。
据我们所知,这是第一个调查包括新生儿、儿童、中年和老年人在内的整个生命周期健康衰老的探索性概念验证研究。最近一项使用Olink技术的大型蛋白质组学研究调查了成年期健康衰老,包括40-70岁个体样本。我们从0-88岁个体获得的独特数据集表明,在生命最初四十年已经可以观察到不同的蛋白质动力学。有多项使用不同技术的蛋白质组学研究,但这些研究在调查年龄相关模式时也未包括新生儿和儿童。我们能够建立从出生到成年的表达“正常范围”。为应对Olink技术中潜在批次效应,我们开发了一个使用“桥接对照”的流程。
我们确定了整个生命周期四种不同的蛋白质表达模式;恒定、增加、减少和U形。不同模式可能代表健康个体整个生命周期中发生的生理过程所涉及的蛋白质。对于个体化医疗,识别蛋白质模式可能有助于未来发现损伤,并通过医疗治疗,我们可以将这些变化重新安排回“正常轨道”。有趣的是,这里仅一种蛋白质在男性和女性之间显示不同的年龄相关变化。使用SomaScan技术,Lehallier等人观察到大多数众所周知的性别相关激素在性别间不同。CALCA表达中的性别差异可能源于激素相关因素,因为已知女性晚年比男性更常发生骨质疏松症。CALCA参与骨形成,并被批准用于治疗佩吉特骨病、高钙血症和预防急性骨丢失。值得注意的是,编码CALCA的基因具有性别特异性多态性,与涉及钙的通路相关,如血管舒张、血压和各种癌症。
六种蛋白质存在于两个面板中,其中两种在面板间相关性不高。这些差异可能由于潜在技术问题或标志物丰度非常低,未在当前研究中进一步研究。最后,少数蛋白质基于来源队列呈现一致差异,然而由于它不影响PCA中获得的簇,因此在研究这些样本中整个生命周期健康衰老时可忽略不计。Caspase 8在全年龄段队列样本中的表达水平持续比其他队列高两倍。目前,我们对此观察结果没有解释。我们还观察到全年龄段队列中IL8表达水平的巨大变异。已知该蛋白质表达水平受不同处理方案影响。因此,重要的是意识到某些蛋白质水平比其他蛋白质更容易受处理方案影响,因此可能具有较低的成为生物标志物潜力。
这项研究有几个局限性。首先,每个年龄组的个体数量有限,依赖20-90岁每10岁10个个体,生命最初20年每5岁10个个体。使用混合抽样方法补充小样本量,然而在增加每个年龄组内样本数量方面能力有限。建议使用来自同一队列的样本以最小化队列特异性变异。随着每10岁年龄增长更多样本,特别是老年人,将获得更可靠的测量结果。其次,缺乏外部验证队列来验证我们的发现。因此这些结果在没有重复的情况下仍然是初步的。需要包括更多个体,特别是幼儿和老年人的验证研究,以进一步研究幼儿、儿童和成人之间的差异。第三,我们仅使用血清样本,已知潜在基质效应可能影响不同样本类型的测量。因此,观察到的整个生命周期健康衰老模式以及“正常范围”仅适用于血清样本。下一步是探索基质效应如何影响获得的范围,并在需要时开发一种使不同基质测量可比的方法。第四,蛋白质组覆盖范围适中,限于大多数样本的92种蛋白质。未来研究可能侧重于扩大蛋白质数量以研究健康个体衰老特征。第五,“健康个体”的定义有争议。我们纳入无慢性免疫介导炎症疾病或免疫抑制剂/调节剂使用的个体,强调应考虑将用作“健康个体”的个体纳入标准,记住年龄特异性和变化的研究目标。此外,对于生物标志物的预期使用,报告平均人群的参考值而不是明确选择无任何疾病相关症状的“健康”人群可能更具信息性。
未来应用,如个体化医疗,可侧重于识别IMIDs或其他疾病中差异表达的蛋白质,并将其与年龄匹配健康个体的正常范围进行比较。利用整个生命周期中识别的蛋白质模式变化,可以开发靶向干预措施以将这些蛋白质的过表达或低表达恢复至正常水平。
此外,探索在“早衰”条件中是否观察到整个生命周期的类似蛋白质模式将是有价值的。此外,验证研究对于确认我们当前发现至关重要,同时纵向研究以验证和进一步研究观察到的蛋白质模式随时间变化。
总之,这项探索性概念验证研究描述了从新生儿到老年人血清样本中178种独特蛋白质的表达。非常年轻和老年人群之间表达的差异强调了儿童与成人的区别。基于网络分析鉴定了免疫相关蛋白质模块,一些与年龄和/或性别相关。我们还确定了衰老过程中四种不同的蛋白质表达模式。衰老过程中观察到的蛋白质表达动力学可能为临床护理、药物开发和临床试验中的生物标志物发现提供关键信息。