双通道异质特征融合神经网络预测大肠杆菌转录后基因表达水平及其调控机制
《BMC Bioinformatics》:Dual-channel heterogeneous feature fusion neural network for the prediction of post-transcriptional gene expression in Escherichia coli
【字体:
大
中
小
】
时间:2025年10月22日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对原核生物5' mRNA区域序列与结构对转录后调控机制不清的问题,开发了一种集成序列-结构特征的双通道神经网络模型。该模型通过Word2Vec和K-mer编码进行序列表示,结合CNN和BiLSTM并行特征提取,利用注意力机制动态加权关键位点,实现了对大肠杆菌转录后基因表达水平的高精度预测(准确率达93%),为合成生物学中基因元件的理性设计提供了重要工具。
在合成生物学迅猛发展的今天,精确调控基因表达水平已成为优化生物制造效率的核心挑战。虽然科学家们早已认识到原核生物中5' mRNA区域的序列和结构特征会显著影响转录稳定性(transcript stability)和翻译效率(translation efficiency),然而这些转录后调控区域(Post-Transcriptional Regulation Region, PTRR)内部复杂的结构-功能关系仍不明确。尤其缺乏能够专门预测PTRR介导的基因特异性转录后调控水平的计算工具,这严重制约了理性设计高效表达元件的进程。
针对这一瓶颈,江南大学的研究团队在《BMC Bioinformatics》上发表了创新性研究,开发了一种基于双通道异质特征融合的神经网络模型,专门用于预测大肠杆菌中由PTRR序列决定的转录后基因表达水平。该研究的独特之处在于首次将PTRR作为一个整体功能单元进行建模,通过整合局部序列语义和全局上下文依赖关系,实现了对转录后调控水平的精准分类。
研究团队首先通过组合12种Translational Standby Site(TSS,翻译备用位点)、6种Shine-Dalgarno(SD,夏因-达尔加诺)序列和7种N-terminal coding sequence(NCS,N端编码序列),在相同启动子调控下构建了576种PTRR变异体文库。利用K-means聚类将这些变异体的转录后表达水平划分为高、中、低三类,建立了均衡的数据集。
在技术方法上,该研究主要采用了以下关键策略:(1)双通道特征编码:分别使用Word2Vec处理的3-mer语义嵌入和one-hot编码保留精确位置信息;(2)并行特征提取:通过多尺度CNN(卷积核尺寸3/5/7)捕捉局部模式,BiLSTM结合注意力机制捕获全局依赖;(3)特征融合与分类:将两个通道的高阶特征拼接后输入全连接网络,使用交叉熵损失函数进行三分类预测。实验数据来源于Zhang等研究中构建的PTRR突变体文库(NCBI登录号PRJNA1133087)。
研究团队创新性地设计了双通道并行架构。第一个通道将基因序列通过3-mer分割后,利用预训练的Word2Vec模型转化为分布式向量表示,然后通过多尺度卷积神经网络(CNN)进行局部特征提取。第二个通道则对one-hot编码的原始序列应用双向长短期记忆网络(BiLSTM)结合注意力机制,动态识别序列中的关键功能区域。两个通道的输出特征进行拼接后,通过全连接层完成最终分类。
经过10次随机划分的训练-测试验证,该模型在测试集上达到了92.8%±0.6%的准确率,F1分数为0.9309。混淆矩阵和ROC曲线分析显示,模型对高、中、低表达水平的预测精度分别为92%、95%和83%,特别在区分中低表达水平片段方面表现优异。与单一通道模型(准确率下降12.0-15.2%)和其他主流架构相比,双通道融合策略显著提升了分类性能。
该研究首次实现了对PTRR组合效应的定量建模,揭示了TSS、SD和NCS三个元件之间的协同互作规律。模型预测的高表达特征与实验观察高度一致:适中的TSS茎环结构(茎长10-12 nt,环≤4 nt)平衡mRNA稳定性和核糖体可及性;6-8 nt的SD序列优化核糖体结合;线性NCS避免翻译延滞。这些发现不仅验证了模型的生物学合理性,更为合成生物学中的PTRR理性设计提供了明确指导。
这项工作的重要意义在于搭建了从序列特征到调控表型的精准预测桥梁,显著降低了实验筛选成本。未来通过整合因果推断和建立"预测-合成-验证"闭环系统,将进一步推动基因表达调控从相关性分析向机制驱动设计的转变,为代谢工程和合成生物学提供变革性工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号