
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用蛋白质语言模型LucaPCycle揭示深海冷泉沉积物中微生物磷循环的奥秘
【字体: 大 中 小 】 时间:2025年05月27日 来源:Nature Communications 14.7
编辑推荐:
推荐 为解决传统序列比对方法难以检测远缘同源蛋白的问题,研究人员开发了基于蛋白质语言模型ESM2-3B的双通道深度学习模型LucaPCycle。该模型成功识别了5241个磷循环蛋白家族,显著提升了深海冷泉生态系统中微生物磷循环的理解,填补了传统方法未能发现的“隐藏”序列空间。
论文解读
深海冷泉是位于大陆边缘的特殊生态系统,其中富含碳氢化合物的流体从海底渗出。这些环境中的化能合成微生物利用甲烷等碳源维持生命活动,同时参与复杂的生物地球化学循环。然而,尽管已有地质化学证据表明深海冷泉中存在活跃的磷循环,相关的微生物过程仍不甚明了。传统的基于序列相似性的搜索方法在检测远缘同源蛋白时存在局限性,导致许多功能未知的蛋白被忽视。为此,中国科学院第三海洋研究所等机构的研究人员开发了一种名为LucaPCycle的深度学习模型,结合原始序列和基于蛋白质语言模型ESM2-3B的上下文嵌入,用于识别全球冷泉基因组和基因目录中的磷循环蛋白家族。
LucaPCycle模型通过二元分类和31分类任务,分别在验证和测试数据集上取得了超过0.96的准确率、精确率、召回率和F1分数。与传统方法相比,LucaPCycle在检测远缘同源蛋白方面表现出更高的精确率(86.13%)和召回率(85.63%)。通过对全球冷泉的非冗余基因和基因组目录进行分析,LucaPCycle识别出5241个独特的磷循环蛋白家族,其中包括三个具有独特结构域组织和酶功能的新型碱性磷酸酶家族。这些发现突显了冷泉生态系统中磷循环的多样性和生态重要性。
研究还揭示了古菌在有机磷矿化和无机磷溶解中的关键作用,包括Asgard古菌、厌氧甲烷氧化古菌和热原体古菌等。此外,冷泉病毒通过编码PhoR-PhoB调控系统和PhnCDE转运体,增强了宿主的磷利用能力。这些发现不仅扩展了对深海冷泉生态系统中磷循环的理解,还为其他生态系统中的微生物磷循环研究提供了新的视角。
为开展这项研究,研究人员采用了蛋白质语言模型ESM2-3B和Transformer-Encoder技术,构建了LucaPCycle双通道深度学习模型。首先,他们从全球冷泉的非冗余基因和基因组目录中提取数据,构建了一个包含214,193个正样本和853,615个负样本的数据集。然后,利用ESM2-3B提取序列特征,并通过Transformer-Encoder处理原始序列特征。最后,通过分类器对蛋白序列进行二元分类和多分类预测。
研究结果表明,LucaPCycle在识别磷循环蛋白方面具有显著优势。通过对5241个独特磷循环蛋白家族的分析,研究人员发现了三个新型碱性磷酸酶家族,这些家族在结构上与已知的PhoD、PafA和PhoA具有相似性,但在进化上具有远程同源性。此外,研究还揭示了古菌在磷循环中的重要作用,特别是在有机磷矿化和无机磷溶解方面。
研究结论指出,LucaPCycle能够访问传统方法未能发现的“隐藏”序列空间,为微生物磷循环的研究提供了新的工具。该模型不仅在深海冷泉生态系统中表现出色,还具有广泛应用于其他生态系统的潜力。通过揭示微生物驱动的磷循环过程,这项研究加深了我们对深海冷泉生态系统中生物地球化学循环的理解,并为未来的研究提供了重要的理论基础和技术支持。
生物通微信公众号
知名企业招聘