哺乳动物皮层细胞类型特异性增强子预测方法的评估及功能特征解析

【字体: 时间:2025年05月22日 来源:Cell Genomics 11.1

编辑推荐:

  该综述聚焦 “脑计划细胞普查网络(BICCN)挑战”,评估多种机器学习和多组学方法预测小鼠皮层细胞类型特异性增强子的性能。发现开放染色质(ATAC-seq)是功能增强子的最强预测指标,结合染色质和序列数据可提升准确性,为解析基因调控和开发遗传工具提供依据。

  

研究背景与挑战构建


哺乳动物新皮层承担高级认知与感觉运动处理功能,其细胞类型多样且分子特征独特。神经退行性疾病如帕金森病等常影响特定细胞类型,因此亟需能选择性靶向脆弱细胞群体的遗传工具。增强子作为基因表达的关键调控元件,其细胞类型特异性预测是开发此类工具的核心。然而,实验验证增强子功能效率低、成本高,且不同计算方法对功能性与非功能性增强子的预测能力尚不明确。

为此,研究组织了 “BICCN 挑战”,邀请全球计算生物学团队参与预测小鼠皮层细胞类型特异性功能性增强子。团队提供了跨物种(人、猕猴、狨猴、小鼠)运动皮层的单细胞多组学数据,包括单细胞 ATAC-seq、RNA-seq、甲基化 Hi-C 等,要求各团队结合跨物种基因组数据和生物学先验知识,对 19 种皮层细胞类型的候选增强子进行排序,最终通过腺相关病毒(AAV)体内验证评估预测准确性。

关键结果与方法性能


社区挑战与数据评估


共有 6 支团队参与挑战,提交了 79 份方案,涵盖 16 种不同的增强子优先排序方法。评估基于 677 个 AAV 载体的体内数据,将增强子分为 “靶向”“脱靶”“混合靶向”“无标记” 四类,并结合荧光成像和单细胞 RNA 测序(SSv4)量化细胞类型特异性和活性。结果显示,前三名团队(Aerts、ArchR、PeakRankR)归一化得分在 0.36-0.41 之间,虽整体准确性中等(F1 分数 0.57-0.58),但显著优于其他方法。

高性能方法的共性特征


高性能方法均依赖 ATAC-seq 特征,尤其是染色质可及性的特异性和信号强度。例如,Aerts 团队结合 RNA-seq 和单细胞调控网络推断(SCENIC+)预测转录因子 - 增强子 - 基因三元组;ArchR 通过谨慎选择背景细胞减少转录起始位点(TSS)富集偏倚;PeakRankR 整合可及性特异性、信号强度和覆盖度等指标。值得注意的是,基于序列的深度学习模型(如 CREsted)虽在部分细胞类型(如 L6b 神经元、Sst Chodl 抑制性神经元)中表现优异,但其整体性能与 ATAC-seq 方法相近,提示染色质可及性仍是核心预测因子。

多维度特征的协同作用


研究发现,开放染色质(ATAC-seq)是功能增强子的最强预测指标,但其单独使用存在局限性。结合组蛋白修饰 H3K27ac、染色质接触频率(ABC 分数)和序列保守性可提升预测准确性。例如,H3K27ac 可区分功能性与非功能性可及染色质区域,ABC 分数与细胞类型特异性活性正相关。随机森林模型进一步表明,开放染色质指标(如 Z 分数、特异性)、序列保守性和 GC 含量是预测增强子活性的关键特征。

模型优化与验证


通过重新评估 “无标记” 增强子,发现部分未被初始检测到的弱活性增强子可通过序列模型(CREsted)和 ATAC-seq 信号联合预测。例如,寡 odendrocyte 增强子 AiE0463m 虽 ATAC 信号弱,但因含多个 POU3F1 基序被 CREsted 正确识别。此外,结合 ATAC-seq 和 CREsted 模型可降低假阳性率,提升对低丰度细胞类型的预测能力。

结论与未来方向


该挑战建立了增强子优先排序的基准,明确了 ATAC-seq 特异性和序列特征的核心地位,同时强调多组学数据整合的重要性。未来需拓展验证范围至更多脑区和细胞类型,开发跨物种保守增强子代码,结合病毒趋向性优化模型,并利用单细胞多组学数据提升预测精度。这些成果为解析哺乳动物皮层基因调控网络、开发精准遗传工具奠定了基础,有望推动神经退行性疾病治疗和脑科学研究的进展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号