基于跨物种机器学习的细菌形态关键基因快速发现新方法

《BMC Microbiology》:Rapid key gene discovery for bacterial shape: a cross-species machine learning approach

【字体: 时间:2025年11月04日 来源:BMC Microbiology 4.2

编辑推荐:

  本研究针对传统功能基因鉴定方法局限于单一物种、效率低下的瓶颈,开发了名为GPGI(基于基因组和表型的基因识别机器学习方法)的新方法。研究人员利用大规模跨物种基因组和表型数据,以细菌杆状形态为案例,成功构建了从蛋白质结构域特征预测细菌形状的机器学习模型,并通过实验验证了pal和mreB基因在维持杆状形态中的关键作用。该方法为复杂性状相关基因的高效鉴定提供了创新解决方案。

  
在生物学研究中,准确鉴定决定特定功能的基因一直是科学家们追求的核心目标。然而,传统方法如突变体筛选、图位克隆和全基因组关联分析(GWAS)往往局限于单一物种分析,存在耗时长、资源消耗大、难以全面覆盖等固有局限性。随着基因组测序技术的飞速发展,目前已测序的细菌基因组超过43万个,但绝大多数细菌的功能基因仍处于未被探索的"数据孤岛"状态,形成了"数据丰富但知识贫乏"的尴尬局面。
这种困境为人工智能特别是机器学习(ML)的应用提供了前所未有的机遇。机器学习以其处理复杂生物数据的强大能力,在预测蛋白质三维结构、基因表达水平分析等方面已取得突破性进展。然而,迄今为止,尚未有机器学习被准确应用于关键生物功能基因鉴定的报道。
为了解决这一挑战,研究人员开发了一种名为GPGI(Genomic and Phenotype-based machine learning for Gene Identification)的新型计算框架。该方法的核心创新在于利用蛋白质结构域作为"通用功能语言",通过机器学习算法建立跨物种的结构域与表型之间的精确预测模型,进而识别包含高贡献度结构域的候选基因。
研究人员以细菌杆状形态为案例,收集了3750个具有匹配基因组和性状信息的细菌数据,构建了以蛋白质结构域为特征的矩阵。通过系统比较五种常用机器学习算法,发现随机森林算法在测试集上表现最佳,准确率达到94.76%,Kappa系数为0.93,表明其分类结果与实际数据高度吻合。
基于随机森林算法的特征重要性评估,研究人员筛选出前10个重要的蛋白质结构域,并选择大肠杆菌BL21(DE3)作为目标菌株进行基因敲除验证。通过CRISPR/Cpf1双质粒基因编辑系统,成功构建了多个基因敲除菌株,并利用扫描电子显微镜(SEM)观察其形态变化。
实验结果显着表明,pal和mreB基因敲除菌株出现了明显的形态改变。野生型大肠杆菌细胞呈现长或短杆状形态,末端圆润。而缺失mreB基因的敲除菌株则呈现近乎球形的形态,长度明显缩短,直径无明显变化。缺失pal基因的菌株则呈现不规则形状,类似于无细胞壁的原生质体状态。这些发现有力证实了GPGI方法在识别关键形态决定基因方面的有效性。
为了评估方法的稳定性,研究人员还分析了训练集规模对预测准确性和基因识别准确性的影响。结果显示,即使仅使用总数据集的50%进行训练,包含OmpA和MreB_Mbl结构域的基因仍能稳定出现在前10个重要结构域中。当训练集包含超过1500个基因组时,OmpA结构域始终排名第一。更重要的是,即使仅使用124个基因组进行训练,该方法仍能稳健地识别出至少一个关键结构域基因,证明了GPGI方法在不同数据规模下的可靠性。
主要技术方法
本研究整合了3750个细菌的基因组和表型数据,利用pfam_scan软件包解析蛋白质结构域,构建特征矩阵。采用随机森林等机器学习算法建立预测模型,通过五折交叉验证评估特征重要性。使用CRISPR/Cpf1基因编辑系统构建敲除菌株,并通过扫描电子显微镜进行形态学验证。
研究结果
构建细菌形状预测模型
研究人员使用五种机器学习算法对数据集进行训练和测试,其中支持向量机和随机森林算法表现最佳。随机森林算法在测试集上的预测效果尤为突出,对不同形状细菌的召回率分别达到97.18%(球菌)、92.75%(杆菌)、92.75%(螺旋菌)和87.90%(其他形状)。
关键基因识别新方法
通过随机森林算法的特征重要性评估,研究人员识别出10个与杆状形态相关的重要蛋白质结构域。实验验证发现,敲除pal和mreB基因会导致大肠杆菌形态发生显着变化,而其他六个基因(yicC、tolQ、amiC、yddB、rpoZ)的敲除虽未引起长度或整体形状的明显改变,但部分菌株表面出现了褶皱和凹陷等细微变化。
方法稳定性评估
通过逐步减少使用的基因组数量,研究人员评估了GPGI方法在不同数据规模下的稳定性。结果显示,即使在有限的数据条件下,该方法仍能保持较好的基因识别能力,证明了其在实际应用中的可行性。
研究结论与意义
GPGI方法成功实现了从蛋白质结构域特征预测细菌表型,并进一步识别关键功能基因的目标。该方法突破了传统功能基因研究方法的局限,利用跨物种基因组数据实现了快速、高效的多基因同步鉴定。实验验证证实了pal和mreB基因在细菌杆状形态维持中的关键作用,其中mreB作为细胞骨架的主要组成部分,控制细胞壁生长并维持细胞形状,而pal蛋白通过与BamA蛋白相互作用参与外膜蛋白的折叠和组装,从而影响外膜完整性。
值得注意的是,虽然一些已知的形态相关基因(如rodZ和pbp)未被识别,但这可能源于训练数据的局限性。随着测序技术的进步和数据质量的提高,GPGI方法有望在更广泛的生物性状研究中发挥重要作用。
该研究的创新之处在于将机器学习应用于功能基因鉴定领域,建立了从基因组数据直接预测表型并识别关键基因的新范式。与传统方法相比,GPGI具有高效率、低成本、高通量等优势,能够同时鉴定多个关键基因,避免了传统方法中常见的重复鉴定和时间资源浪费问题。
然而,该方法仍存在一定局限性,其准确性依赖于输入数据的质量和全面性,数据偏差可能导致基因的虚假识别。此外,实验验证目前仅限于大肠杆菌和单一性状,该方法在更复杂真核生物中的普适性仍需进一步验证。
总之,GPGI为功能基因研究提供了强有力的新工具,有望在微生物功能基因组学时代加速生物功能发现进程,推动从"数据丰富"向"知识丰富"的转变。随着方法的不断完善和应用范围的拓展,这一技术路线可能在医学、环境科学等多个领域产生深远影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号