PTF-Vac:基于可解释生成式深度协同学习的植物转录因子结合位点从头发现系统
《Plant Communications》:PTF-Vāc: An explainable and generative deep co-learning encoders-decoders system for ab-initio discovery of plant transcription factor binding sites
【字体:
大
中
小
】
时间:2025年10月03日
来源:Plant Communications 11.6
编辑推荐:
本研究针对植物转录因子结合位点(TFBS)鉴定中存在的跨物种高变异性、传统方法依赖预定义模型等瓶颈,开发了基于Transformer-DenseNet协同学习框架的PTF-Vac系统。该系统通过整合TF三维结构信息与DNA序列特征,实现了不依赖物种特异性训练数据的TFBS精准预测,在36个植物TF的验证中与实验数据吻合度达83-100%,显著优于现有深度学习方法,为植物基因组注释和基因调控网络解析提供了突破性工具。
植物基因表达的精准调控依赖于转录因子(TF)与DNA特定序列的结合,这些被称为转录因子结合位点(TFBS)的短序列通常只有5-20个碱基对(bp),却决定着基因何时、何地以及如何被激活。然而,在植物世界中,鉴定这些"调控开关"面临着独特挑战——不同物种间基因组存在显著差异,同一转录因子在不同植物中的结合偏好可能大相径庭。
传统鉴定方法如染色质免疫沉淀测序(ChIP-seq)虽能直接捕获TF结合区域,但成本高昂且难以覆盖所有条件和物种。计算生物学方法则多依赖位置权重矩阵(PWM)等预定义模型,这些模型在跨物种应用时效果骤减,更无法应对新测序基因组中TFBS的发现需求。更棘手的是,同一转录因子的不同剪接变体可能具有截然不同的DNA结合特性,而现有工具对此几乎无能为力。
面对这些挑战,研究人员在《Plant Communications》上发表了创新性研究成果,开发了名为PTF-Vac的可解释生成式深度学习系统。该系统创新性地将转录因子三维结构信息与其结合位点的序列变异性进行协同学习,建立了不依赖任何物种特异性训练数据的通用TF-DNA相互作用模型。
研究团队构建了融合Transformer编码器-解码器和DenseNet的双模态架构,其中Transformer处理DNA序列的k-mer特征(五聚体、六聚体、七聚体组合),DenseNet则分析AlphaFold2预测的TF三维结构。通过梯度加权类激活映射(Grad-CAM)技术实现模型可解释性,展示关键序列特征和结构域对结合活性的贡献。系统验证采用分子对接、TOMTOM motif比对等多元方法,测试数据涵盖拟南芥、玉米、大豆等物种的实验验证TFBS。
研究表明,同时考虑序列背景和TF结构的协同学习模型测试准确率达93.2%,而仅使用序列信息的模型性能下降至73.9%。通过消融实验发现,组合使用五聚体、六聚体、七聚体表征(共465个特征词)时模型表现最优。特别值得注意的是,α螺旋含量较高的TF受结构信息移除的影响较小,这与α螺旋在DNA大沟识别中的重要作用相符。
PTF-Vac在36个植物TF(30个DAP-seq和6个ChIP-seq数据)的测试中表现出色,所有预测motif均与JASPAR数据库中的实验验证motif显著匹配(TOMTOM p-value << 0.01)。其中13个TF的预测与实验motif完全一致,最低覆盖度也达83.26%。分子对接分析进一步证实,PTF-Vac预测的TFBS与对应TF的结合自由能(△G)与实验值高度接近。
在玉米和大豆的跨物种验证中,PTF-Vac对bHLH47、EREB172等TF的预测与实验motif匹配度达100%。通过比较同一TF在不同物种间的三维结构差异(RMSD值0.847-1.29 ?)和结合motif变化,证实系统能有效学习TFBS的物种特异性变异规律。
以拟南芥ARF8转录因子为例,PTF-Vac成功区分了ARF8.2和ARF8.4两个剪接变体(结构RMSD=1.2 ?)的不同结合偏好:ARF8.2特异性结合IAA19基因启动子,而ARF8.4同时结合IAA19和MYB26基因,且结合位点各异,这与实验观察完全一致。
在茶树全基因组应用中,PTF-Vac预测的BES1转录因子靶基因与ChIP-seq实验结果重叠度达98%,且富集到的motif与实验数据高度相似。基因本体(GO)和KEGG通路分析显示这些靶基因显著富集于干旱胁迫响应等生物过程,揭示了BES1在茶树抗逆性调控中的新功能。
PTF-Vac的创新性在于彻底解耦了TFBS发现与传统motif构建过程的依赖关系,通过深度学习编码器-解码器架构实现了结合位点的"语音翻译"式生成。该系统对输入数据量不敏感,即使单条序列也能获得可靠结果,且内置的Grad-CAM可解释性模块为用户提供了结合置信度评估。这些特性使PTF-Vac成为植物转录调控研究中的突破性工具,特别适用于新测序基因组的调控元件注释、剪接变体功能分化研究等场景。该系统的Web服务器已公开可用,支持用户进行基因组规模的TFBS分析,必将推动植物基因调控研究的深入发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号