CMImpute:基于条件变分自动编码器的跨哺乳动物物种 DNA 甲基化样本跨物种和组织插补

【字体: 时间:2025年05月21日 来源:Genome Biology 10.1

编辑推荐:

  为解决哺乳动物甲基化阵列数据中物种 - 组织组合覆盖不全的问题,研究人员开发 CMImpute(条件变分自动编码器)方法。通过分析 348 物种和 59 组织数据,插补 19,786 新组合,证实其与观测值相关性强,为 DNA 甲基化分析提供新资源。

  
在生命科学领域,表观遗传学的研究正不断揭示基因表达调控的奥秘。DNA 甲基化作为一种重要的表观遗传标记,在基因调控、疾病发生以及个体特征(如年龄)预测中扮演着关键角色。随着技术的发展,哺乳动物甲基化阵列的大规模应用显著增加了 DNA 甲基化数据的可用性,但这些数据仅覆盖了物种 - 组织组合的一小部分。例如,某些物种(如马、人类)拥有多种组织的数据,而许多其他物种仅有一两种组织的数据,这种不完整且不平衡的覆盖严重限制了跨物种表观遗传分析的深度和广度。因此,开发一种能够准确插补缺失物种 - 组织组合 DNA 甲基化数据的方法,成为表观遗传学领域亟待解决的问题。

为了攻克这一难题,美国加州大学洛杉矶分校(University of California, Los Angeles)的研究人员开展了相关研究。他们开发了一种名为 CMImpute(Cross-species Methylation Imputation)的方法,该研究成果发表在《Genome Biology》上。CMImpute 基于条件变分自动编码器(conditional variational autoencoder, CVAE),能够利用现有跨物种甲基化数据,插补缺失的物种 - 组织组合的 DNA 甲基化均值样本,为跨物种表观遗传研究提供了更全面的数据支持。

研究人员主要采用了以下关键技术方法:首先,使用来自哺乳动物甲基化联盟的 13,245 个个体 DNA 甲基化样本,覆盖 348 个哺乳动物物种和 59 种组织,构成训练数据集。其次,采用 CVAE 神经网络架构,该架构由编码器、潜在空间和解码器组成,通过输入甲基化样本及对应的物种和组织标签,学习跨物种和组织的甲基化模式,进而生成缺失组合的插补样本。研究中通过五折交叉验证评估 CMImpute 的性能,并与逻辑回归、物种基线、组织基线和全局基线等方法进行比较。

研究结果


CMImpute 概述


CMImpute 输入包含 CpG 位点的甲基化样本及物种和组织标签,输出缺失组合的物种 - 组织组合均值样本。其 CVAE 框架通过训练捕捉物种间和物种内的组织信号,利用学习到的参数对缺失组合的每个 CpG 位点甲基化水平进行插补。例如,在对马的缺失组织(如大脑、耳朵等)进行插补时,会利用同一物种其他组织、其他物种同一组织以及重叠物种 - 组织的数据进行训练。

CMImpute 预测与观测数据定性一致


通过五折交叉验证,对 465 个有观测数据的组合均值样本进行插补。热图分析显示,CMImpute 插补的甲基化模式在物种间水平与观测数据相似,且能捕捉到组织特异性的差异甲基化区域,而物种基线等方法则无法有效体现组织信号。例如,在去除物种信号后,CMImpute 插补样本与观测样本均显示出明显的组织特异性甲基化差异,而物种基线样本则缺乏这种差异。

组合均值样本水平插补性能分析


定量分析表明,CMImpute 的样本间皮尔逊相关系数平均为 0.920,高于物种基线(0.906)、逻辑回归(0.886)等方法。在最高覆盖探针子集上,其性能进一步提升至 0.932。此外,CMImpute 在大多数系统发育目中表现出高相关性,仅单孔目因样本量少(13 个样本)相关性较低(0.806)。在个体组合层面,CMImpute 在 68%-98% 的样本中优于各基线方法。

探针水平插补性能分析


探针水平分析显示,CMImpute 在最高覆盖探针子集的平均探针间相关系数为 0.623,显著高于物种基线(0.518)等方法。随着探针变异程度的增加,CMImpute 的性能虽有所下降,但在高组织间变异的探针上仍优于基线方法,表明其对不同变异水平的探针具有较好的鲁棒性。

可用数据量对插补准确性的影响


研究发现,目标物种的组织类型数量和目标组织的物种数量均与 CMImpute 的性能呈正相关。例如,当目标物种的组织类型从 1 种增加到 5 种时,平均相关系数从 0.915 提升至 0.951;当目标组织的物种数量从 1 个增加到最大数量时,平均相关系数从 0.893 提升至 0.938,表明更多的训练数据可提高插补准确性。

非观测物种 - 组织组合均值样本的插补


利用全部可用数据训练 CMImpute,插补了 19,786 个未观测的物种 - 组织组合均值样本。聚类分析显示,插补样本的甲基化模式按系统发育顺序聚类,且保留了与观测样本相似的物种和组织信号。例如,插补样本的成对相关热图显示出与观测样本类似的系统发育相关块结构,去除物种信号后,组织特异性聚类也与观测数据一致。

插补样本对物种最大寿命的预测能力


通过线性回归分析,CMImpute 插补的物种平均甲基化样本与观测数据一样,能够有效预测物种的最大寿命对数,皮尔逊相关系数分别为 0.813(观测数据)和 0.829(插补数据),表明插补样本保留了与物种特征相关的生物学信号。

研究结论与讨论


CMImpute 通过 CVAE 框架成功实现了跨物种和组织的 DNA 甲基化样本插补,显著扩展了物种 - 组织组合的覆盖范围。其插补样本不仅与观测数据具有高度相关性,还保留了物种和组织的特异性信号,为跨物种表观遗传研究提供了重要资源。例如,插补数据可用于分析 DNA 甲基化与最大寿命等物种特征的关系,推动对表观遗传调控机制的理解。

尽管 CMImpute 表现出色,但仍有改进空间。例如,目前未考虑年龄、性别等样本属性,未来可探索引入这些标签以提升性能;此外,结合系统发育信息或其他生化数据(如序列信息)可能进一步提高预测准确性。总体而言,CMImpute 及其生成的插补数据集为比较表观遗传学研究提供了强大工具,有望加速哺乳动物表观遗传调控及其与疾病和寿命等特征关联的研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号