-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Genome Biology》:Weighted 2D-kernel density estimations provide a new probabilistic measure for epigenetic age
【字体: 大 中 小 】 时间:2025年04月23日 来源:Genome Biology 10.1
编辑推荐:
在衰老研究中,传统表观遗传时钟依赖线性回归,难以精准反映生物年龄。研究人员开展基于加权 2D - 核密度估计(WKDE)构建表观遗传时钟的研究。结果显示,WKDE 模型预测精度与传统时钟相似,且变异分数可辅助评估生物年龄,成果发表在《Genome Biology》上。为衰老研究提供新视角。
在生命的长河中,衰老一直是科学家们不懈探索的神秘领域。随着研究的深入,人们发现 DNA 甲基化(DNAm)在特定基因组位点的增减变化,如同岁月留下的独特印记,能够反映个体的年龄,基于此的表观遗传时钟应运而生,成为衰老研究的核心工具。
最初的表观遗传时钟旨在与实际年龄高度相关,主要应用于法医学等领域。但人们很快发现,当训练样本量足够大或校正白细胞计数后,实际年龄与表观遗传年龄的偏差(delta age)所反映的全因死亡率等信息会受到影响。为了更精准地反映生物年龄,融入多因素的第二代时钟诞生,它综合了年龄以及血细胞计数、血糖水平、血压等临床参数的表观遗传指标。随后,基于大规模队列研究的第三代时钟进一步优化,能更好地量化个体的衰老速度。
然而,当前的表观遗传时钟仍存在诸多局限。多数时钟依赖线性回归,假定甲基化随年龄呈线性变化,但实际上,在儿童时期,年龄相关的 DNAm 变化遵循对数模式;在老年个体中,传统线性预测器常低估生物年龄,这可能与幸存者偏差以及部分衰老相关 CpG 位点的非线性饱和效应有关。此外,虽然深度学习等新兴方法可构建非线性表观遗传时钟,但这些方法通常需要大量样本和强大的计算能力,操作复杂。而且,现有的表观遗传时钟仅能为给定样本提供单一的年龄预测值,无法反映更多信息。
为了解开这些谜团,来自德国亚琛工业大学医学院干细胞生物学研究所等多个机构的研究人员,开展了一项基于 2D 核密度估计(KDE)构建表观遗传时钟的研究,相关成果发表在《Genome Biology》上。
研究人员主要运用了以下关键技术方法:收集 13 项人类外周血 DNAm 数据集,分为训练集和验证集;基于与年龄相关性筛选特定数量的 CpG 位点,如 27 个(R2>0.7)或 491 个(R2>0.6);通过 KDE 计算年龄与 DNAm 水平的概率分布,构建表观遗传时钟;利用遗传算法优化模型权重;引入变异分数评估年龄相关 DNAm 的异质性;运用多种统计分析方法探究模型性能、疾病关联及与死亡率的关系 。
下面来看看具体的研究结果:
二维核分布提供概率性表观遗传年龄估计:研究人员利用多个研究的 DNAm 数据集,基于 KDE 构建表观遗传时钟。先对选定的 CpG 位点计算年龄与 DNAm 水平的概率分布,进而得出联合概率估计,将概率最大对应的年龄作为样本预测年龄。由于训练集样本年龄分布不均,导致预测结果偏差。经多种方法调整后,最终通过将样本按年龄分组选取样本构建 2D 密度核,得到了与实际年龄相关性良好的预测结果,证明 KDE 可用于表观遗传年龄的概率性预测。
加权 2D 核年龄预测的改进:最初基于 27 或 491 个 CpG 位点的概率核模型在训练集和验证集的预测精度差异较大。相比之下,传统多变量回归模型在训练集和验证集的相关性更高。研究人员利用遗传算法优化权重,构建加权核密度估计模型(WKDE)。优化后的 27 CpG WKDE 模型在验证集的预测效果显著提升,与多变量模型相当,但 491 CpG WKDE 模型因过拟合在验证集表现不佳。
与其他常用表观遗传时钟的对比:将 27 CpG WKDE 模型与其他常用表观遗传时钟对比发现,该模型与许多时钟的相关性相似或更优,且在所有数据集上的中位绝对误差较小,表明其能稳健地估计实际年龄。
27 CpG 时钟在纯化细胞类型中的性能:研究人员使用包含 6 种纯化细胞类型的数据集,评估 27 CpG WKDE 时钟在不同细胞类型中的表现。结果显示,该时钟在纯化细胞类型中总体适用,但淋巴细胞的组成会影响预测结果,如 B 细胞年龄被高估,T 细胞年龄被低估。
WKDE 方法在靶向检测中的适用性:利用之前发表的 9 个年龄相关 CpG 位点的焦磷酸测序数据,构建 9 CpG WKDE 模型。结果表明,该模型在验证集的预测相关性良好且误差低,说明 WKDE 方法适用于靶向 DNAm 分析。
给定样本中年龄相关 DNAm 的异质性:研究人员计算变异分数评估选定甲基化位点间的差异。结果显示,多数样本的实际年龄在预测年龄 ± 变异分数范围内,变异分数与年龄、表观遗传年龄、delta age 相关性较弱,在 25 - 75 岁间最高,且无性别差异。
变异分数在多种疾病中显著增加:研究人员分析多种疾病的 DNAm 数据集发现,急性髓系白血病(AML)等疾病患者的变异分数分布与健康人差异显著,且部分疾病经治疗后变异分数下降。此外,骨髓纤维化、唐氏综合征、HIV 感染患者的变异分数也显著高于健康人,而早衰综合征、帕金森病、精神分裂症患者与健康人无显著差异,表明高变异分数可能指示潜在疾病。
表观遗传衰老的样本内在异质性与全因死亡率的关联:在 Lothian Birth Cohort 1921(LBC1921)和 LBC1936 队列中,研究人员分析 delta age 和变异分数与全因死亡率的关系。结果显示,delta age 与死亡率无显著关联,但变异分数在 LBC1921 队列中,每增加 1 单位,死亡率风险降低 9.2%,调整多种因素后该关联仍显著,而在 LBC1936 队列中未观察到显著关联。
综合来看,研究结论表明,加权 2D - 核密度估计(WKDE)可实现准确的表观遗传年龄预测,变异分数可作为评估生物年龄的额外参数。但该方法也存在一定局限性,如预测年龄范围受限、训练集年龄分布不平衡等问题。尽管如此,这项研究为表观遗传时钟的构建提供了新的思路和方法,变异分数的引入为理解生物衰老和疾病关联提供了新视角,有助于推动衰老研究及相关疾病诊断的发展。