整合转录组学与机器学习解析大肠杆菌K-12假设蛋白功能:从计算预测到实验验证

【字体: 时间:2025年07月26日 来源:Computational and Structural Biotechnology Journal 4.5

编辑推荐:

  本研究针对微生物"暗物质"中大量未注释的假设蛋白(HPs),通过整合转录组学、机器学习(OptICA算法)和in silico工具,系统解析了E. coli K-12中95个完全未表征HPs的功能,并实验验证了yhdN(热休克响应)、yeaC/ydgH(氧化应激)三个关键基因的功能,为微生物功能基因组研究提供了AI驱动的新范式。

  

在微生物研究领域,大量"假设蛋白"(Hypothetical Proteins, HPs)如同未被破解的密码,即便在模式生物大肠杆菌K-12中,仍有2%的蛋白质组功能完全未知。这些分子暗物质严重阻碍了对细胞代谢网络和生物技术潜力的挖掘。传统实验验证方法效率低下,而单纯的计算预测又存在准确性不足的困境,如何系统破解这些HPs的功能成为亟待解决的难题。

Karlsruhe Institute of Technology和Helmholtz Society的研究团队在《Computational and Structural Biotechnology Journal》发表创新研究,通过多组学整合与人工智能技术,建立了从计算预测到实验验证的完整研究框架。研究人员首先严格筛选出95个完全未注释的E. coli K-12 HPs(标准包括:EcoCyc标记"未表征"、UniProt注释分1分、RegulonDB证据等级"弱"、EggNOG归类"S"或无双源同源物)。采用OptICA算法对779个高质量RNA-seq数据集进行独立成分分析,生成128个iModulon(独立调控模块),结合PANTHER GO注释、STRING蛋白互作网络、AlphaFold结构预测等12种生物信息学工具,构建了多层次功能预测体系。

关键技术包括:1) OptICA机器学习算法解析转录调控网络;2) 基于BW25113突变体的生长曲线实验验证(热休克50°C/7min,H2O2 2.5mM氧化应激);3) RNA-seq差异表达分析(DESeq2,log2FC≥1.5,Padj≤0.1);4) 远程同源检测(HHblits+AFDB结构聚类)。

iModulon生成和分析
通过OptICA将90%已知基因和54%未表征HPs成功聚类,发现22个HPs具有已知调控因子(如yhdN受σ32调控),29个属于新型调控模块。验证实验显示ΔyhdN在热休克后生长缺陷达18%(LB)和50%(氮限制M9),证实其参与热应激响应。

功能分析
32个HPs获高置信度注释(如yhdN与分子伴侣J-domain同源),29个获低置信度注释。实验验证显示:1) ΔyhdN中热休克基因bolA上调5.53倍;2) ΔyeaC在氧化应激下生长延迟25%,伴随运动基因fliF下调9.86倍;3) ΔydgH中氧化应激基因ghoS上调3.65倍。

差异基因表达
WT vs ΔyhdN分析发现213个上调基因中,tdcB(营养胁迫)和tnaA(蛋白折叠)显著高表达;ΔyeaC中氧化应激基因prpE上调4.75倍;ΔydgH中应激响应蛋白dsrB上调3.89倍,印证计算预测。

结论与展望
该研究开创性地将AI预测与实验验证相结合,使64%的未表征HPs获得功能线索,突破性地证实yhdN、yeaC、ydgH分别参与热休克响应和氧化还原平衡。所建立的分析框架可推广至微生物暗物质研究,为合成生物学和抗逆机制研究提供新工具。未来需扩展至代谢组/蛋白组数据,以破解剩余36% HPs的功能奥秘。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号