编辑推荐:
本文介绍了细胞类型特异性组蛋白乙酰化评分(CHAS)这一计算工具,其能推断大脑疾病中细胞类型特异性特征。通过应用于多种神经和精神疾病研究,揭示了不同疾病中细胞类型特异性的表观遗传变化,为相关疾病研究提供新视角,助力探索疾病机制和治疗靶点。
研究背景与目的
在神经和精神疾病研究中,组蛋白 H3 赖氨酸 27(H3K27ac)的乙酰化成为一种与疾病相关的重要表观遗传标记。然而,由于以往研究多使用大脑组织样本,细胞类型对疾病中表观遗传失调的具体贡献尚不明确。因此,开发能够解析大脑组织 H3K27ac 图谱的方法至关重要。本研究旨在介绍细胞类型特异性组蛋白乙酰化评分(CHAS)这一计算工具,通过它来推断大脑组织 H3K27ac 图谱中的细胞类型特异性特征,进而深入了解神经和精神疾病的发病机制。
CHAS 模型
- CHAS 算法:H3K27ac 的增强子和结构域具有细胞类型特异性。CHAS 利用这一特性,将大脑组织 H3K27ac 研究中识别出的峰值注释到神经元、小胶质细胞、少突胶质细胞和星形胶质细胞的细胞类型特异性信号上。它通过将大脑组织 H3K27ac 峰值与每种细胞类型特异性峰值集进行重叠分析,满足两个标准的峰值会被定义为细胞类型特异性峰值:一是仅注释到单一细胞类型;二是与该细胞类型的峰值重叠达到预定义比例。之后,CHAS 通过计算样本中特定细胞类型所有特异性峰值的归一化信号强度平均值,得到细胞类型特异性分数,以此作为该细胞类型在组织样本中比例的代理指标 。CHAS 需要输入大脑组织 H3K27ac 峰值、细胞分选的 H3K27ac 参考峰值以及大脑组织 H3K27ac 峰值的计数矩阵,主要执行两项分析任务:识别大脑组织 H3K27ac 图谱中的细胞类型特异性峰值;基于全基因组平均 ChIP-seq 信号强度生成细胞类型特异性分数。
- CHAS-MF 算法:为了更准确地估计细胞类型比例,研究人员在 CHAS 中实现了第二种算法 CHAS-MF,它基于非负矩阵分解原理,参考 EPIC R 包进行设计。CHAS-MF 首先合并大脑组织和参考峰值以识别共识峰值,然后使用 bam 文件(若有)或大脑组织和参考计数作为共识峰值计数的代理,生成这些峰值的读数计数。由于 EPIC 最初是为转录组数据设计的,为提高其在解析 H3K27ac 图谱时的准确性,研究人员进行了三点修改:基于峰值长度和文库大小对大脑组织和参考 H3K27ac 计数进行归一化;若给定细胞类型有多个参考样本,使用中位数归一化计数每百万(CPM)进行反卷积;对峰值进行加权,以考虑读数计数和信号变异性,高权重分配给具有强细胞类型特异性信号的峰值。CHAS-MF 选择具有高读数计数且在单一细胞类型中高、在其他细胞类型中低的特征峰值进行分析,而非对所有共识峰值应用 MF。它同样需要输入大脑组织 H3K27ac 峰值、细胞分选的 H3K27ac 参考峰值,以及大脑组织和参考样本的 bam 文件或计数矩阵,主要执行三项任务:识别共识峰值;生成大脑组织和参考 H3K27ac 样本中共识峰值的读数计数;基于归一化全基因组 ChIP-seq 信号强度,使用 MF 预测细胞类型比例。
CHAS 的验证
- 模拟实验验证:为验证 CHAS 预测细胞类型组成的准确性,研究人员使用分选的 H3K27ac 数据模拟假大脑组织 H3K27ac 图谱。每个样本包含从星形胶质细胞、小胶质细胞、神经元和少突胶质细胞中随机抽取的 3000 万个读数,细胞组成基于 AD 和非 AD 个体的皮质比例。经峰值调用和读数计数生成后,CHAS 与真实细胞类型比例显示出近乎完美的相关性(Spearman 等级相关系数,CHAS 的 R ≥ 0.99,p < 2.2×10-16;CHAS-MF 的 R ≥ 0.92,p < 2.2×10-16)。在不同读数深度(10M、20M)和样本大小(10、25)下进行测试,相关性依然很强(Spearman 等级相关系数,每次分析 R ≥ 0.99 )。
- 真实数据验证:研究人员还使用 CHAS 和 CHAS-MF 对 15 名健康个体两个不同脑区的 NeuN+和 NeuN? H3K27ac 数据进行反卷积分析。在前扣带回皮质(ACC)和背外侧前额叶皮质(DLPFC)样本中,CHAS 和 CHAS-MF 均显示 NeuN+样本中的平均神经元比例显著高于 NeuN?样本。此外,研究人员还评估了 CHAS 处理新的、罕见和缺失细胞类型的能力,结果表明 CHAS 在这些情况下均能表现出良好的性能。
CHAS 在大脑疾病研究中的应用
- 阿尔茨海默病(AD)研究:AD 患者大脑中存在 H3K27ac 的异常,但具体细胞类型的贡献尚未完全明确。研究人员使用 CHAS 对 AD 患者内嗅皮层的 H3K27ac 图谱进行反卷积分析,重新分析原始数据后发现,在 183,353 个峰值中,80% 可注释到一种或多种细胞类型,47% 为单一细胞类型特异性峰值。CHAS-MF 估计四种细胞类型平均占样本的 92%。CHAS 衍生的神经元分数与先前研究中基于 DNA 甲基化数据使用 CETS 估计的神经元比例相关。比较 AD 病例和对照的 CHAS 分数和 CHAS-MF 比例,发现 AD 大脑中神经元分数较低,少突胶质细胞分数较高。重新研究 AD 中差异组蛋白乙酰化时,控制 CHAS 分数和年龄后,共鉴定出 5,763 个高乙酰化和 5,904 个低乙酰化峰值;控制 CHAS-MF 比例时,鉴定出 324 个高乙酰化和 792 个低乙酰化峰值。AD 相关的高乙酰化和低乙酰化区域均显著富集少突胶质细胞特异性峰值。功能富集分析显示,神经元特异性低乙酰化峰值与突触功能相关,这表明 AD 大脑中存在突触密度和功能的适应性变化。此外,AD 风险位点在小胶质细胞特异性 H3K27ac 区域显著富集,而表观遗传失调主要集中在少突胶质细胞特异性区域,这表明遗传风险和表观遗传失调针对不同细胞类型,可能存在独立的生物学机制。
- 帕金森病(PD)研究:PD 中 H3K27ac 在细胞水平的作用尚不清楚,虽然细胞类型的易感性通常与多巴胺能神经元有关,但遗传风险与多种神经元及少突胶质细胞相关。研究人员应用 CHAS 分析 PD 病例和对照的大脑组织 H3K27ac 研究数据,在 ParkWest 队列中,74% 的峰值可注释到至少一种细胞类型,CHAS-MF 估计四种细胞类型平均占样本的 96%。细胞比例估计值与 CHAS 分数在所有四种细胞类型中均相关,但 PD 病例和对照之间的细胞类型分数或比例无显著差异。控制性别、年龄和 CHAS 分数后,差异组蛋白乙酰化分析鉴定出少量差异乙酰化峰值,其中多数为少突胶质细胞特异性;使用 CHAS-MF 比例进行分析时,也得到类似结果,但由于差异乙酰化峰值数量较少,未进行细胞类型或功能富集分析。分区遗传力分析未观察到 PD 风险在任何细胞类型中的显著富集 。
- 自闭症谱系障碍(ASD)研究:在 ASD 患者大脑的组织水平,H3K27ac 的失调与突触传递、免疫相关基因以及罕见 ASD 突变基因有关 。研究人员使用来自 ASD 患者和对照的前额叶皮质(PFC)和小脑的 ChIP-seq 样本进行分析,在 PFC 中,73% 的峰值可注释到至少一种细胞类型,在小脑中为 49%。CHAS-MF 估计四种细胞类型平均占 PFC 样本的 95%,占小脑样本的 92%。比较 ASD 病例和对照的细胞类型分数和比例,发现除小脑外无显著差异,但小脑样本中 ASD 病例的所有细胞类型分数均显著低于对照,因此排除小脑数据集进行下游分析。控制性别、年龄和细胞类型分数或比例后,在 PFC 中鉴定出 ASD 相关的差异乙酰化区域(DARs)。ASD 相关的高乙酰化区域在小胶质细胞中显著富集,低乙酰化区域在星形胶质细胞和小胶质细胞中富集。功能富集分析显示,神经元特异性高乙酰化峰值与钙调蛋白结合相关,而免疫相关过程的富集主要在小胶质细胞中,这与 ASD 中神经免疫改变的证据一致。此外,ASD 风险变异在神经元特异性 H3K27ac 区域显著富集。
- 精神分裂症和双相情感障碍研究:此前,精神分裂症和双相情感障碍的表观基因组景观大多未知。一项研究对 249 个大脑前额叶皮质(PFC)样本进行 H3K27ac 分析,发现该表观遗传标记在疾病中存在全基因组改变。研究人员重新分析该数据集,使用 CHAS 对 PFC 样本的 H3K27ac 峰值进行注释并估计细胞类型分数和比例。结果显示,只有 55% 的峰值可注释到至少一种细胞类型,CHAS-MF 估计四种细胞类型平均占样本的 92%。比较病例和对照的分数和比例发现,精神分裂症大脑中神经元分数和比例较高,小胶质细胞分数和比例较低;双相情感障碍大脑中神经元分数和比例较高,少突胶质细胞分数和比例较低。控制年龄、性别和 CHAS 分数后,精神分裂症和双相情感障碍均鉴定出多个差异乙酰化峰值;控制 CHAS-MF 比例时,鉴定出的差异乙酰化峰值数量较少。对于两种疾病,DARs 均在少突胶质细胞中显著富集。功能富集分析显示,双相情感障碍中神经元特异性低乙酰化峰值与通道活性和复合物相关,少突胶质细胞特异性低乙酰化峰值与突触膜途径相关。此外,精神分裂症和双相情感障碍的遗传力均在神经元特异性 H3K27ac 峰值中显著富集。
研究讨论
- 研究成果总结:CHAS 作为一种计算工具,通过两种独立算法对大脑疾病相关的大脑组织 H3K27ac 图谱进行反卷积分析,在多种大脑疾病研究中取得了重要成果。它不仅能够识别不同疾病中细胞类型特异性的表观遗传变化,还揭示了遗传风险和表观遗传失调往往针对不同细胞类型,为深入理解疾病机制提供了新的视角。例如,在 AD 研究中,发现晚期 AD 的差异乙酰化在少突胶质细胞特异性 H3K27ac 中富集,同时小胶质细胞中也存在 AD 相关的低乙酰化,这表明 HDAC 调节可能是潜在的治疗靶点。在 ASD、双相情感障碍和精神分裂症研究中,也分别确定了与疾病相关的细胞类型特异性表观遗传变化和功能富集。
- 研究局限性:CHAS 的性能受到组织样本中细胞类型比例的影响,这可能会影响细胞类型特异性分数和比例的稳健性,以及低频细胞类型中差异乙酰化的检测。此外,CHAS 所基于的细胞分选数据存在一定局限性,仅包含大脑皮层的四种主要细胞类型,缺乏对稀有细胞类型、细胞亚型和不同细胞状态的覆盖。目前 CHAS 仅适用于大脑组织 H3K27ac 研究,未来需要更完善的参考数据集来扩展其应用范围。尽管存在这些局限性,CHAS 在当前阶段仍为大脑疾病的遗传和表观遗传研究提供了有价值的见解,有助于优先确定相关细胞类型和通路。
- 未来展望:随着单细胞 H3K27ac 分析技术的不断发展,未来有望创建更全面的神经和精神疾病表观基因组景观。但目前该技术仍处于早期阶段,CHAS 在现阶段为推断大脑组织组蛋白乙酰化图谱中的细胞类型特异性特征提供了独特的机会。研究人员期待未来能够利用单细胞 H3K27ac 图谱进一步改进 CHAS,使其能够解析更精细的细胞亚型和状态,为大脑疾病的研究和治疗带来更多突破。
资源可用性
- 联系信息:如需进一步信息,可联系主要联系人 Sarah J. Marzi(sarah.marzi@kcl.ac.uk)。
- 数据和代码获取:所有补充表格可在https://doi.org/10.5281/zenodo.12784761获取。CHAS 是一个开源 R 包,可在https://github.com/Marzi-Lab/CHAS获取,本文中重现图表所需的所有数据和代码可在https://github.com/Marzi-lab/CHAS_manuscript和 Zenodo 获取,更多信息可向主要联系人索取。