
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于卷积神经网络(PGBTR)的细菌转录调控网络高效预测新方法
【字体: 大 中 小 】 时间:2025年08月02日 来源:BMC Genomics 3.7
编辑推荐:
本研究针对细菌转录调控网络(TRN)预测的挑战,提出了一种基于卷积神经网络(CNN)的通用计算框架PGBTR。该方法创新性地开发了PDGD输入生成技术,结合基因组距离信息构建CNNBTR深度学习模型,在Escherichia coli和Bacillus subtilis数据集上AUROC/AUPR分别达0.8849/0.8920,显著优于现有方法。该研究为系统生物学领域提供了兼具高效性、通用性和稳定性的TRN推断新工具。
在微生物系统生物学领域,解析细菌转录调控网络(Transcriptional Regulatory Networks, TRN)一直是核心挑战。传统实验方法如染色质免疫共沉淀(ChIP)虽能鉴定转录因子(TF)与靶基因的物理互作,但耗时费力且难以覆盖全基因组规模。随着高通量测序技术发展,基因表达数据呈指数增长,但如何从中准确推断调控关系仍存在方法学瓶颈——现有计算工具或受限于通用性(如无监督方法阈值难以确定),或存在性能不足(如监督方法对数据噪声敏感)。
针对这一关键问题,研究人员开发了PGBTR(Powerful and General Bacterial Transcriptional Regulatory networks inference method)计算框架。该方法通过两大创新突破技术瓶颈:首先设计概率分布与图距离(Probability Distribution and Graph Distance, PDGD)算法,将基因表达数据转化为32×32×3的特征矩阵;随后构建基于残差网络(ResNet)的CNNBTR模型,整合基因组距离信息提升预测精度。在标准测试集Dream5和新构建的RegulonDB_Ecoli、Subtiwiki_Bsubtilis数据集上,PGBTR的AUROC/AUPR指标较最优基线方法提升3-6%,且对真实调控关系的识别稳定性显著优于GRADIS等现有技术。
关键技术包括:1)采用K-means聚类将表达谱降维至50个特征中心点;2)构建包含表达量直方图、排序直方图和聚类距离图的三通道PDGD矩阵;3)设计四层ResNet模块结合全连接层的CNNBTR架构;4)利用1035例E. coli RNA-seq样本和265例B. subtilis样本构建新基准数据集。
比较实验显示,PDGD在8×8至32×32矩阵尺寸下均优于传统NEPDF方法(图2)。当输入矩阵扩展至32×32时,RegulonDB_Ecoli数据集的AUPR达到0.7948,验证了该方法在保留表达数据特征方面的优势。

在Dream5合成数据中,PGBTR_dream(无基因组距离版本)AUROC为0.8225,略低于无监督方法AGRN(0.8496),作者分析认为合成数据的调控关系过于理想化导致监督方法优势受限。但在真实细菌数据中,完整版PGBTR展现出绝对优势:在Subtiwiki_Bsubtilis数据集上F1-score达0.8143,较次优方法GRADIS提高8.3%(表3)。

学习曲线分析表明(图3),当训练样本超过1000对TF-基因时,模型性能趋于稳定。值得注意的是,在十次负采样实验中,PGBTR对真实调控关系的正确识别次数≥8次的比例达68.5%,显著高于GRADIS(52.1%),证明其抗干扰能力突出。
该研究开创性地将图像处理技术应用于TRN预测,其PDGD-CNNBTR框架突破了传统方法在特征提取和模型泛化方面的限制。特别值得关注的是,该方法仅需基因表达数据即可实现高精度预测,避免了多组学数据整合带来的资源消耗问题,在微生物合成生物学和病原菌致病机制研究等领域具有广泛应用前景。未来通过迁移学习等技术,有望进一步拓展至调控数据稀缺的微生物物种。
生物通微信公众号
知名企业招聘