跨平台DNA结合基序发现与基准测试揭示人转录因子结合特异性
《Communications Biology》:Cross-platform motif discovery and benchmarking to explore binding specificities of poorly studied human transcription factors
【字体:
大
中
小
】
时间:2025年11月09日
来源:Communications Biology 5.1
编辑推荐:
本研究针对人类转录因子(TF)DNA结合特异性研究中的技术挑战,系统比较了十种基序发现工具在五种实验平台(ChIP-Seq、HT-SELEX、GHT-SELEX、PBM、SMiLE-Seq)上的性能。通过对394个TF的4,237组实验数据进行分析,发现Dimont工具在跨平台评估中表现最优,且低信息含量基序也能有效表征结合特异性。研究构建了Codebook Motif Explorer资源库,并证明结合随机森林模型可提升基因组结合位点预测精度,为TF功能研究提供了重要工具和基准。
在基因调控网络中,转录因子(Transcription Factor, TF)与DNA的特异性结合是控制基因表达的核心环节。准确刻画TF的DNA结合特异性,对于理解基因调控机制、解析非编码区变异功能至关重要。然而,人类基因组中仍有大量TF的结合特性尚未明确,且不同实验平台产生的数据存在技术偏差,如何从多平台数据中可靠地挖掘TF结合基序仍是当前研究的难点。
传统上,TF结合特异性常用位置权重矩阵(Position Weight Matrix, PWM)模型表示,但基序发现工具的性能高度依赖实验数据类型。以往研究多局限于单一平台或模拟数据,缺乏系统性跨平台评估。尤其对于未被充分研究的TF,其结合基序的可靠性更难保证。为此,由多国研究人员组成的GRECO-BIT联盟与Codebook项目合作,开展了大规模基序发现与基准测试研究,成果发表于《Communications Biology》。
研究团队整合了五种实验平台数据:染色质免疫沉淀测序(ChIP-Seq)、基因组DNA高通量SELEX(GHT-SELEX)、随机DNA高通量SELEX(HT-SELEX)、蛋白结合微阵列(Protein Binding Microarray, PBM)以及SMiLE-Seq,覆盖394个潜在TF的4,237组实验。通过两轮基序发现流程,应用十种工具(包括MEME、HOMER、Dimont、ProBound等)生成PWM模型,并采用分层排名聚合策略评估基序性能。
关键技术方法包括:对ChIP-Seq/GHT-SELEX数据采用染色体留出法划分训练测试集;PBM数据采用空间去趋势和分位数归一化预处理;SELEX数据通过k-mer富集分析筛选序列;使用多指标(如auROC、auPRC、CentriMo)评估基序的跨平台预测能力;通过人工审核剔除实验噪音和常见伪信号基序。
研究发现,Dimont在多数实验平台(尤其是ChIP-Seq和GHT-SELEX)中表现最优,其生成的基序在全局排名中占比近半。工具性能高度依赖数据类型:ProBound在HT-SELEX数据上领先,而ChIPMunk在SMiLE-Seq数据中表现最佳。值得注意的是,75%的情况下,工具报告的首个基序在跨平台基准测试中确实最优,但仍有25%的案例中次要基序更具代表性,提示实际应用中需综合考察多个输出基序。
通过统一量化指标比较发现,基序的基本特征(如信息含量、GC组成、长度)与预测性能无显著相关性。低信息含量基序在多个平台中仍能有效表征结合特异性,这可能反映了TF存在多种结合模式。从合成序列(如HT-SELEX)衍生的基序在预测基因组结合位点时性能平均下降0.1–0.2(auROC),但仍有一部分基序表现优异,说明合成数据可捕获本质结合特性,但需严格筛选。
针对TF多结合模式的特点,研究构建了随机森林模型Archipelago,整合多个PWM的预测结果。在137个TF的ChIP-Seq和GHT-SELEX数据上测试表明,仅结合2–4个PWM即可显著提升结合位点预测精度(auROC和auPRC均提高)。例如,GABPA(已知形成多聚体)和锌指蛋白ZNF43(具单/双框结合模式)等TF的预测效果明显改善,证明多基序集成策略能更好捕捉复杂结合模式。
本研究成果集成于Codebook Motif Explorer在线平台,提供基序模型、性能指标和原始数据。该资源首次为54个此前未明确DNA结合特异性的人类TF提供了实验证据,为其确认为序列特异性DNA结合蛋白奠定基础。平台支持交互式查询和结构化下载,为后续方法开发和生物学研究提供基准。
研究结论强调,Dimont为代表的判别式学习工具在PWM发现中具显著优势,但不同工具各有适用场景。多平台数据整合是评估实验可靠性和基序质量的关键,而低信息含量基序的有效性提示TF结合可能存在熵焓平衡优化机制。随机森林等集成方法有望解决多结合模式表征难题,但跨平台泛化仍是未来挑战。
该研究通过大规模系统性基准测试,确立了DNA基序发现的最佳实践框架,为基因调控解密、疾病变异解读及深度学习模型可解释性研究提供了坚实基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号