IceQream(IQ):基于转录因子物理模型的染色体可及性定量分析新方法

【字体: 时间:2025年10月11日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对当前表观基因组预测模型缺乏可解释性的问题,开发了IceQream(IQ)这一基于物理原理的转录因子结合模型。通过整合TF-DNA亲和力空间分布与非线性响应机制,IQ在人类和小鼠数据中实现了与最先进深度学习模型相当甚至更优的预测性能,为理解基因调控机制提供了可解释的定量分析框架。

  
在基因组调控研究领域,科学家们一直试图破解DNA序列如何决定染色质的开放状态这个核心谜题。尽管单细胞表观基因组学技术的发展使得我们能够以前所未有的分辨率绘制染色体可及性图谱,但如何从序列信息中机械性地解释顺式调控元件(CREs)的活动规律仍然是一个重大挑战。当前主流的深度学习模型虽然预测性能出色,但其黑箱特性使得研究人员难以从中提取可解释的生物学机制。
传统的转录因子结合模型通常只考虑最优结合位点,而忽略了大量次优位点的协同作用。此外,现有方法大多将可及性视为二元状态(开放或关闭),而实际上染色质的可及性在细胞群体中呈现连续的数量特征。这些局限性促使研究人员开发既能保持预测准确性又具备物理解释性的新型计算模型。
在此背景下,Weizmann科学研究所的Akhiad Bercovich等研究人员在《Nature Communications》上发表了IceQream(IQ)模型,该工作通过构建转录因子的物理结合模型,实现了对染色体可及性的定量预测和机制解释。
研究团队主要采用了以下关键技术方法:基于单细胞ATAC-seq数据的可及性概率(AP)定量化算法;整合位置权重矩阵(PWM)和空间结合偏好的物理结合模型(PBM);PREGO motif回归算法进行模型优化;使用人造血系统和小鼠原肠胚形成期的单细胞多组学数据作为模型训练和验证队列;以及针对深度学习模型的基准测试框架。
Overview of IceQream quantitative accessibility modeling
研究人员首先开发了将原始ATAC测序数据转换为可及性概率(AP)的标准化流程。通过识别组成型开放位点(如看家基因启动子)作为内参,建立了从0到1的连续可及性量化体系。IQ模型核心包含转录因子结合模型、表观遗传背景变量和 pairwise 相互作用三个组件,每个TF模型通过预定义的非线性剂量响应曲线整合不同亲和力序列的贡献。
Transforming scATAC read counts to normalized access probabilities
在人类和小鼠数据集中,研究团队发现组成型开放位点的ATAC信号与局部GC含量和区域背景信号高度相关。通过区域标准化(20 kbp窗口均值校正)和组成型位点归一化,成功消除了技术变异,揭示了不同细胞状态的特异性可及性模式。多能性状态(如表胚层、HSC/MPP)相比分化状态(如原始红细胞、前B细胞)显示出更分散的调控位点活动。
IceQream generates concise models without compromising accuracy
在鼠标原肠胚形成模型中,IQ算法将21,867个初始模型压缩为13个最终模型,同时提高了预测精度。与线性模型、广义加性模型(GAM)和SCENIC等方法相比,IQ显示出显著优越的性能。模型解析揭示了正向(Mesp、Eomes、Gata)和负向(Sox/Nanog、Pou3、Snai)调控组件,其中仅Dmrta2和Tbx1模型表现出非单调响应曲线。
IceQream fits quantitative affinities to continuous accessibility probabilities
研究表明CRE活性呈现连续数量特征而非二元状态。通过按预测dAP分组的分析发现,IQ能够区分强诱导和弱诱导(但显著)的CREs。整合次优结合位点的贡献对模型准确性至关重要——仅考虑最优位点会使R2显著降低。不同TF表现出 distinct 的亲和力偏好模式:Mesp2和Nanog/Sox偏好单个近最优位点,而Snai和Tcf模型对多个中等亲和力位点敏感。
Spatial and epigenomic features provide IQ models with
IQ通过空间曲线量化TF结合与核小体缺失区(NDR)的相对定位关系。小鼠模型显示在NDR中心±80-120 bp范围内的均匀结合偏好,人类模型则呈现更局域化的空间模式(如Gata和PU.1)。融入表观遗传特征(H3K27ac、H3K4me3标记和区域可及性)进一步提升了模型性能。
Inferred IQ Interactions highlight cooperative CRE specificity
TF-TF pairwise 相互作用项显著改善模型预测。对Eomes-Mesp和Atf4-Atf3等互作对的分析显示,结合位点间距在20 bp内的序列相比100-200 bp间距表现出显著更强的协同效应(p<0.001),表明可能存在物理异源二聚化或特定空间构型。
Homogenization of CRE models across a single cell manifold
通过跨轨迹模型融合,研究人员从小鼠原肠胚形成数据中推导出包含61个通用motif的整合模型,人类HSPC模型则包含20个motif。均质化处理不仅没有损失预测精度,反而提高了交叉验证性能,使得能够在全 manifold 尺度上研究CRE动态。
IQ predictive power matches deep learning counterparts
与最先进的深度学习模型(Borzoi、DeepTopic)对比显示,IQ在预测微分可及性方面达到相当甚至更优的R2值。集成模型(IQ+Borzoi)表现最佳,但性能差距有限,表明当前DL模型发现的非局部"语法"结构贡献度相对有限。在Borzoi预测误差较大的CREs中,IQ模型的Eomes和Mesp2等PBM显示出更高能量值,提示DL模型可能未能充分捕捉已知的TF-DNA相互作用机制。
Exploratory analysis of CREs given an IQ model
研究人员开发了IQ-plot(IQ-P)可视化工具,能够展示单个CRE的序列架构、结合位点空间分布和保守性特征。该工具揭示了部分结合位点重叠(Eomes和Snai)、侧翼定位(Mesp和Hnf)以及多亚优化结合位点等复杂调控模式,为研究更高层次的调控语法提供了技术平台。
本研究开发的IceQream框架成功建立了染色体可及性与序列特征之间的定量可解释模型。通过物理建模TF结合机制、整合空间和表观遗传特征,IQ在保持与深度学习相当预测精度的同时,提供了直接的生物学机制解释。研究发现TF结合不仅依赖于最优位点,次优位点的协同贡献同样重要;TF-TF相互作用表现出明显的间距依赖性;且不同细胞状态具有 distinct 的可及性调控模式。
该研究的核心意义在于为基因组调控研究提供了可解释的定量基线模型,既可作为表征已知调控机制的平台,也能作为发现新机制的检测工具。当自上而下的深度学习模型性能超越自下而上的物理模型时,其差距很可能指向尚未被认识的生物学机制。此外,IQ模型对低亲和力结合的重视、对空间约束的量化以及对非线性相互作用的整合,都为理解真核生物基因调控的复杂性提供了新视角。
这项工作标志着表观基因组建模从黑箱预测向机械性理解的重要转变,为最终实现从序列信息全面预测细胞命运决定的宏伟目标奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号