iPro-MP：基于BERT的多物种原核启动子预测模型及其跨物种适用性评估

《Genome Biology》：iPro-MP: a BERT-based model to predict multiple prokaryotic promoters

【字体：大中小】 时间：2025年10月14日 来源：Genome Biology 9.4

编辑推荐：

　　本研究针对现有原核启动子预测工具存在物种覆盖范围有限、预测精度不足的问题，开发了基于DNABERT的深度学习框架iPro-MP。通过系统评估23个系统发育多样性物种（包括模式和非模式生物），证明iPro-MP在AUC值上超过0.9的物种达18个，且显著优于Prompt、PromoterLCNN和iPro-WAEL等现有工具。该模型利用多头自注意力机制捕获DNA序列中的局部模体和全局上下文关系，为理解原核生物基因调控机制及合成生物学应用提供了有力工具。

在基因转录这一基础生物学过程中，启动子作为原核生物中重要的顺式调控元件，通过介导RNA聚合酶结合来调控基因表达，在细胞代谢和环境适应中发挥着关键作用。然而，准确识别原核启动子始终面临重大挑战，特别是在非模式生物中。现有预测工具主要集中于个别模式生物（如大肠杆菌和枯草芽孢杆菌），且预测精度有待进一步提升。随着二代测序技术的发展，差异RNA测序（dRNA-seq）等技术虽能实现全基因组范围内转录起始位点（TSS）的高分辨率图谱绘制，但实验方法成本高、通量低，难以满足大规模启动子鉴定的需求。

为应对这一挑战，苏伟等人开发了iPro-MP——首个基于DNABERT的Transformer架构框架，用于多物种原核启动子预测。该研究发表于《Genome Biology》，系统评估了23个系统发育多样性原核生物（包括古菌和细菌）中的预测性能。iPro-MP通过自注意力机制有效学习DNA序列中的隐藏模式，在五折交叉验证和独立测试集上均表现出卓越性能，AUC值超过0.9的物种占比达78.3%，显著优于随机森林（RF）、XGBoost、长短期记忆网络（LSTM）等传统机器学习方法。

关键技术方法包括：从原核启动子数据库（PPD）收集23个物种的实验验证启动子序列，使用CD-HIT以0.8相似度阈值去冗余；负样本来自长编码序列（CDS）和收敛基因间区；采用6-mer标记化策略和DNABERT预训练模型进行微调，使用五折交叉验证和独立测试集评估性能。

研究结果首先显示iPro-MP在多物种启动子预测中表现出卓越性能和稳健性。通过比较不同k-mer大小发现，6-mer表示能提供更丰富的序列语义，使模型更好捕获启动子特异性特征。如图1所示，iPro-MP在五折交叉验证中四个评价指标（Acc、AUC、AUPRC和MCC）均取得高分，其中17个物种（73.9%）的AUC值超过0.9。在独立测试集上（图2），模型仍保持高性能，18个物种（78.3%）AUC>0.9，显示其强大泛化能力。

iPro-MP在序列水平揭示物种特异性。跨物种预测实验（图3）表明，训练和测试物种相同时性能最优（对角线元素），但系统发育相近物种（如空肠弯曲菌各菌株）间也存在高预测性能，提示启动子序列特征具有一定跨物种可转移性。相反，古菌物种（如H. volcanii DS2和T. kodakarensis KOD1）模型对细菌物种预测效果差，准确率持续低于0.7，反映古菌和细菌在转录调控机制上的根本差异。

进化分析和保守序列比较（图4）进一步证实，古菌启动子缺乏细菌典型的-10和-35基序，而表现出与TATA结合蛋白（TBP）和转录因子B（TFB）结合位点相关的独特序列偏好。这些发现强调了构建物种特异性或进化枝特异性模型的重要性。

iPro-MP学习到能清晰区分启动子与非启动子的判别性表示。t-SNE可视化（图5a）显示，在大多数23个物种中，启动子序列（黄色）形成紧密连贯簇，而非启动子序列（紫色）分布更分散。将所有物种启动子嵌入同一空间（图5b）时，不同物种启动子形成 distinct 簇，系统发育相关物种（如空肠弯曲菌各菌株）簇位置相近或部分重叠。注意力权重可视化（图5c）显示，在大多数细菌物种中，注意力强烈集中在-10位置周围，而在古菌（物种11和21）中主要集中于-26位置（对应TATA-box样核心启动子元件位置），与已知生物学架构一致。

iPro-MP在跨物种中优于经典和深度学习基线。如图6所示，iPro-MP在23个多样性原核物种的启动子分类任务中一致优于随机森林（RF）、XGBoost、逻辑回归（LR）和长短期记忆网络（LSTM）。iPro-MP平均Acc为0.890、AUC为0.935、AUPRC为0.903、MCC为0.752，而次优模型RF相应指标分别为0.839、0.882、0.847和0.688。

iPro-MP在多物种启动子预测中优于现有工具。与Prompt、PromoterLCNN和iPro-WAEL等最新工具比较（图7），iPro-MP在大多数物种中一致优于竞争方法，在23个物种中的21个取得最佳性能，平均Acc、AUC、AUPRC、MCC和F1分数均最高（表2）。尽管采用Transformer架构，iPro-MP仍保持有竞争力的运行时效率（平均29.09秒）和内存使用（约3.6 GB）。

研究结论指出，iPro-MP是首个基于DNABERT的多物种原核启动子预测框架，通过多头自注意力机制学习DNA序列中的局部和长程依赖关系，解决了现有方法物种覆盖范围有限和预测性能欠佳的问题。跨物种预测分析既展示了模型泛化的潜力，也揭示了其局限性，强调了在特定系统发育背景下物种特异性建模的价值。t-SNE可视化和基序保守性分析证明iPro-MP能捕获有生物学意义的调控特征，即使在非模式生物中也是如此。

该研究的成功得益于几个关键设计选择：使用DNABERT捕获DNA序列中的复杂上下文模式；训练数据集涵盖23个具有不同基因组特征的原核物种；整合CDS和基因间序列作为负样本迫使模型学习更精细的边界；轻量级分类头与GELU激活、dropout正则化和层归一化有助于模型稳定性和泛化。

除了启动子预测，iPro-MP在合成生物学和功能基因组学等领域具有应用潜力。通过实现大规模、准确识别不同原核基因组中的天然启动子，iPro-MP有助于扩展未充分研究物种的启动子数据集，进而支持开发更通用的生成框架用于合成启动子设计。

尽管iPro-MP整体表现强劲，但对少数具有弱启动子基序或非典型调控结构的物种预测精度仍不理想，如P. putida和S. meliloti，提示需要进一步研究物种特异性启动子模式，并可能整合表观遗传或结构特征。未来工作目标包括开发通用启动子预测框架，能够泛化到更广泛的原核物种，减少对生物特异性微调的依赖，实现对新测序或注释不足物种的可扩展应用。

总体而言，iPro-MP代表了一个强大且可推广的原核启动子注释工具。通过提高跨不同微生物基因组解码调控区域的能力，该框架有望推动微生物基因调控、合成生物学、微生物生态学和致病机制研究的发展。未来努力可能通过整合多组数数据和领域特异性微调策略进一步提高其效用。

热点排行