跨平台DNA结合基序发现与基准测试揭示人转录因子结合特异性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Communications Biology》：Cross-platform motif discovery and benchmarking to explore binding specificities of poorly studied human transcription factors

【字体：大中小】 时间：2025年11月09日 来源：Communications Biology 5.1

编辑推荐：

　　本研究针对人类转录因子(TF)DNA结合特异性研究中的技术挑战，系统比较了十种基序发现工具在五种实验平台(ChIP-Seq、HT-SELEX、GHT-SELEX、PBM、SMiLE-Seq)上的性能。通过对394个TF的4,237组实验数据进行分析，发现Dimont工具在跨平台评估中表现最优，且低信息含量基序也能有效表征结合特异性。研究构建了Codebook Motif Explorer资源库，并证明结合随机森林模型可提升基因组结合位点预测精度，为TF功能研究提供了重要工具和基准。

在基因调控网络中，转录因子(Transcription Factor, TF)与DNA的特异性结合是控制基因表达的核心环节。准确刻画TF的DNA结合特异性，对于理解基因调控机制、解析非编码区变异功能至关重要。然而，人类基因组中仍有大量TF的结合特性尚未明确，且不同实验平台产生的数据存在技术偏差，如何从多平台数据中可靠地挖掘TF结合基序仍是当前研究的难点。

传统上，TF结合特异性常用位置权重矩阵(Position Weight Matrix, PWM)模型表示，但基序发现工具的性能高度依赖实验数据类型。以往研究多局限于单一平台或模拟数据，缺乏系统性跨平台评估。尤其对于未被充分研究的TF，其结合基序的可靠性更难保证。为此，由多国研究人员组成的GRECO-BIT联盟与Codebook项目合作，开展了大规模基序发现与基准测试研究，成果发表于《Communications Biology》。

研究团队整合了五种实验平台数据：染色质免疫沉淀测序(ChIP-Seq)、基因组DNA高通量SELEX(GHT-SELEX)、随机DNA高通量SELEX(HT-SELEX)、蛋白结合微阵列(Protein Binding Microarray, PBM)以及SMiLE-Seq，覆盖394个潜在TF的4,237组实验。通过两轮基序发现流程，应用十种工具（包括MEME、HOMER、Dimont、ProBound等）生成PWM模型，并采用分层排名聚合策略评估基序性能。

关键技术方法包括：对ChIP-Seq/GHT-SELEX数据采用染色体留出法划分训练测试集；PBM数据采用空间去趋势和分位数归一化预处理；SELEX数据通过k-mer富集分析筛选序列；使用多指标（如auROC、auPRC、CentriMo）评估基序的跨平台预测能力；通过人工审核剔除实验噪音和常见伪信号基序。

基序发现工具的性能比较

研究发现，Dimont在多数实验平台（尤其是ChIP-Seq和GHT-SELEX）中表现最优，其生成的基序在全局排名中占比近半。工具性能高度依赖数据类型：ProBound在HT-SELEX数据上领先，而ChIPMunk在SMiLE-Seq数据中表现最佳。值得注意的是，75%的情况下，工具报告的首个基序在跨平台基准测试中确实最优，但仍有25%的案例中次要基序更具代表性，提示实际应用中需综合考察多个输出基序。

基序性能的定量分析

通过统一量化指标比较发现，基序的基本特征（如信息含量、GC组成、长度）与预测性能无显著相关性。低信息含量基序在多个平台中仍能有效表征结合特异性，这可能反映了TF存在多种结合模式。从合成序列（如HT-SELEX）衍生的基序在预测基因组结合位点时性能平均下降0.1–0.2（auROC），但仍有一部分基序表现优异，说明合成数据可捕获本质结合特性，但需严格筛选。

多PWM集成提升预测能力

针对TF多结合模式的特点，研究构建了随机森林模型Archipelago，整合多个PWM的预测结果。在137个TF的ChIP-Seq和GHT-SELEX数据上测试表明，仅结合2–4个PWM即可显著提升结合位点预测精度（auROC和auPRC均提高）。例如，GABPA（已知形成多聚体）和锌指蛋白ZNF43（具单/双框结合模式）等TF的预测效果明显改善，证明多基序集成策略能更好捕捉复杂结合模式。

资源平台构建与应用价值

本研究成果集成于Codebook Motif Explorer在线平台，提供基序模型、性能指标和原始数据。该资源首次为54个此前未明确DNA结合特异性的人类TF提供了实验证据，为其确认为序列特异性DNA结合蛋白奠定基础。平台支持交互式查询和结构化下载，为后续方法开发和生物学研究提供基准。

研究结论强调，Dimont为代表的判别式学习工具在PWM发现中具显著优势，但不同工具各有适用场景。多平台数据整合是评估实验可靠性和基序质量的关键，而低信息含量基序的有效性提示TF结合可能存在熵焓平衡优化机制。随机森林等集成方法有望解决多结合模式表征难题，但跨平台泛化仍是未来挑战。

该研究通过大规模系统性基准测试，确立了DNA基序发现的最佳实践框架，为基因调控解密、疾病变异解读及深度学习模型可解释性研究提供了坚实基础。

联系信箱：

粤ICP备09063491号

热点排行