编辑推荐:
为解决生物样本获取困难时无法直接测量 DNA 甲基化变化的问题,研究人员开展基于多均值高斯过程(multi-mean Gaussian processes)的研究,预测儿童未来甲基化状态,发现预测准确性高,这有助于研究表观遗传衰老和未来健康结局。
在生命科学和健康医学领域,研究人员一直致力于揭示生命奥秘,探索疾病发生发展机制,从而更好地保障人类健康。其中,DNA 甲基化作为一种重要的表观遗传修饰,能够反映遗传和环境暴露的累积效应,对研究长期健康结局、衰老和疾病机制意义重大。然而,以往研究主要依赖横断面数据,难以捕捉 DNA 甲基化随时间的动态变化,且现有方法通常只能在单个时间点研究单个甲基化位点,当缺乏生物样本时,无法研究未采集数据时间点的甲基化组。在此背景下,研究人员开展了相关研究,旨在突破这些困境,为健康医学研究开辟新道路。
新加坡的研究人员针对上述问题,开展了一项极具创新性的研究。他们引入了一种基于多均值高斯过程的概率机器学习框架,对儿童早期 DNA 甲基化进行纵向研究。该研究利用新加坡成长为健康结局(Growing Up in Singapore Towards healthy Outcomes,GUSTO)出生队列中的数据,选取部分参与者的纵向甲基化数据进行分析,并通过另一组参与者进行模型验证。
研究人员首先收集了参与者的颊拭子样本,提取 DNA 后进行甲基化分析,同时收集临床变量数据。在建模过程中,他们提出的多均值高斯过程模型,考虑了个体和基因随时间的相关性,通过多个潜在均值过程来提供适应性预测。具体而言,该模型将 DNA 甲基化值视为一个共同均值趋势(μ0)、个体特异性扰动(fi)和 CpG 特异性扰动(gj)的总和,通过计算多个均值过程来预测未来甲基化值。
在预测过程中,研究人员利用期望最大化(EM)算法估计模型参数和均值过程,通过计算特定 CpG 的后验分布来获得 CpG 特异性均值过程,进而预测未来甲基化值。他们以皮肤和血液时钟以及 PedBE 时钟中的 CpG 位点为例,预测了个体在 6 岁时的甲基化状态,并计算了相应的表观遗传年龄。
研究结果令人瞩目。在预测甲基化状态方面,多均值高斯过程模型表现出色。通过对 188 名测试个体和特定数量的 CpG 位点进行分析,发现预测值与真实值的相关性极高,平均皮尔逊相关系数达到 0.99,平均斯皮尔曼相关系数达到 0.98。大部分误差在 5% 范围内,约 95% 的 CpG 位点甲基化差异小于 10%,且预测的不确定性量化合理,95% 可信区间覆盖范围接近理论值。
在表观遗传年龄估计上,利用预测的甲基化值计算得到的表观遗传年龄与实际表观遗传年龄相关性良好。其中,基于皮肤和血液时钟计算的表观遗传年龄与实际年龄更为接近,而 PedBE 时钟计算的表观遗传年龄多数高于实际年龄,但两者计算的表观遗传年龄与实际年龄的相关性都得到了验证。
研究还发现,预测的年龄加速(AA,定义为表观遗传年龄与实际年龄回归的残差)与儿童健康结局存在关联。例如,5.5 岁时较高的中等至剧烈身体活动(MVPA)与较低的 AA 相关,6 岁时较高的舒张压与较高的 AA 相关。
在研究结论与讨论部分,该研究意义重大。研究人员利用概率机器学习方法成功预测了个体未来 2 年的甲基化状态,这为研究表观遗传衰老和未来健康结局提供了有力工具。尽管研究存在一定局限性,如模型难以在大规模类似纵向数据集上复制,缺乏生物年龄的金标准,以及高斯过程在处理大量时间点数据时存在计算限制等,但该研究为后续研究指明了方向。研究人员可以进一步优化模型,增加数据采样频率,扩展到全基因组甲基化位点预测,这将有助于识别和验证与多种健康状况相关的表观遗传特征,推动横断面和纵向表观遗传研究的发展,为个性化医疗和健康管理提供重要依据。
总的来说,这项发表在《eBioMedicine》的研究,在 DNA 甲基化纵向预测领域取得了重要突破,为生命科学和健康医学研究带来了新的思路和方法,有望在未来改善人类健康状况方面发挥重要作用。