
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于全局耦合分析与高通量测序的转录因子DNA识别偏好性特征研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Nucleic Acids Research 16.7
编辑推荐:
本研究针对转录因子(TF)DNA识别偏好性特征不足的问题,开发了DCA-Scapes全局耦合模型,通过整合HT-SELEX高通量数据与ChIP-seq验证,首次实现了高分辨率TF结合位点预测及组织特异性调控网络解析,为基因调控机制研究提供了新范式。
基因调控的核心在于转录因子与DNA的精准识别,然而传统方法如位置权重矩阵(PWM)假设核苷酸位点独立,无法捕捉DNA三维结构等关键特征。ChIP-seq虽能定位基因组结合区域,但受限于抗体质量和细胞环境,且峰值区域常达数百碱基难以精确定位。HT-SELEX技术虽能高通量测量TF结合序列,但缺乏有效模型挖掘隐藏的识别规律。
美国德克萨斯大学达拉斯分校的Qin Zhou团队在《Nucleic Acids Research》发表研究,开发了DCA-Scapes全局耦合模型。该模型通过整合184个TF的HT-SELEX数据,引入直接耦合分析(DCA)算法,首次量化了核苷酸位点间的协同作用,在MAX蛋白中发现间隔11个位点的长程相互作用调控DNA环化。与240组ChIP-seq数据比对显示,模型预测结合位点的平均AUC达0.705,成功在CEBPB峰值区域鉴定出肺癌相关靶点PIGL和GXYLT1。
关键技术包括:1) 基于HT-SELEX第四轮筛选序列构建20-mer耦合矩阵;2) 建立百万随机序列的零模型计算结合显著性;3) 全基因组滑动窗口扫描(窗口20bp);4) 粗粒化分子动力学模拟MAX蛋白-DNA复合物构象。
DCA-Scapes TF-DNA相互作用模型构建
通过147个人类和37个小鼠TF的HT-SELEX数据,模型量化了位点特异性场强(hi)和成对耦合能(eij)。如图1所示,Hamiltonian评分系统将序列偏好转化为结合概率,较PWM模型新增41.7%的弱结合位点识别能力。
体内结合序列预测验证
在66个TF的ChIP-seq验证中,MAX蛋白预测AUC达0.83。图3展示模型在CEBPB峰值内精确定位两个结合簇,其中PIGL靶点仅在肺成纤维细胞IMR-90中活跃,揭示组织特异性调控新机制。
基因组靶标预测
全基因组扫描发现MAX在白血病细胞中特异性结合LINC00683和NPM1基因。图4显示其50个顶级靶标中仅2个为泛组织型,其余与K562细胞系显著相关,提示MAX可能通过CRPPA等基因参与白血病发生。
高分辨率识别模式解析
图5揭示MAX蛋白通过CACGTG重复基序形成DNA环,短程耦合(4-9位)决定基序特异性,而长程耦合(15-20位)调控空间构象。粗粒化模拟显示该构象使两个MAX蛋白环协同结合,解释其结合能较单基序提升6.3倍。
该研究突破传统motif分析的局限性,首次系统揭示TF识别的协同效应规律。发现的组织特异性靶点为肺癌和白血病治疗提供新靶点,开发的DCA-Scapes平台已开源(dcascapes.org),可预测遗传变异对TF结合的影响。未来整合ATAC-seq数据将进一步提升稀有细胞类型的调控网络解析能力。
生物通微信公众号
知名企业招聘