
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于DNA语言模型REMME和REBEAN的宏基因组读段酶功能注释新范式
【字体: 大 中 小 】 时间:2025年09月05日 来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对宏基因组数据中大量未探索的微生物"暗物质"功能潜力,开发了基于Transformer架构的DNA语言模型REMME(Read EMbedder for Metagenomic Exploration)及其微调版本REBEAN(Read Embedding-Based Enzyme Annotator)。该研究突破了传统基于序列比对的注释局限,通过深度学习直接解析读段的酶功能特征,在未组装读段水平实现了七大类酶(EC 1-7)的精准预测,并成功鉴定了极端环境中的新型氧化还原酶(oxidoreductases)。发表于《Nucleic Acids Research》的这项研究为挖掘微生物组功能潜力提供了创新工具。
微生物组被称为地球生物圈的"暗物质",其功能潜力远超人类认知。尽管高通量测序技术已能直接从环境样本获取宏基因组数据,但现有分析方法严重依赖参考序列比对,导致约99%的微生物基因功能无法注释。这种技术瓶颈极大限制了人类对微生物组在生态、健康和工业应用中作用机制的理解。
为突破这一局限,R. Prabakaran和Yana Bromberg团队在《Nucleic Acids Research》发表创新研究,开发了基于深度学习的两阶段模型系统。研究者首先构建通用DNA语言模型REMME,通过73M海洋微生物读段的预训练,使模型掌握核苷酸序列的生物学语境特征;随后微调出REBEAN模型,专门用于从读段直接预测七大酶类(EC 1-7)。这种"预训练-微调"范式首次实现了不依赖序列相似性的功能注释,为挖掘微生物组功能潜力开辟了新途径。
关键技术方法包括:1) 从MGnify数据库获取1496个原核生物基因组构建73M读段训练集;2) 采用六层Transformer架构预训练REMME,进行掩码序列预测和编码区识别;3) 基于mi-faser注释的19M读段微调REBEAN进行EC分类;4) 使用极端环境宏基因组数据集(8M读段)评估模型性能;5) 通过Pfam结构域分析和ESMFold结构预测验证新型酶发现。
REMME模型训练与特征学习
预训练阶段,REMME展现出对读段编码区域的精准识别能力(Pearson r=0.73),能区分转录与非转录区域(准确率88.5%)。模型通过自监督学习掌握了DNA序列的深层语法规则,其生成的128维嵌入向量可有效表征读段的生物学特征。

REBEAN的酶功能注释性能
在4295个实验验证酶基因生成的52万读段测试中,REBEAN在90%精度下平均召回率达23%,基因水平整合多读段预测后性能提升至48%召回率。值得注意的是,高置信度预测读段显著富集催化位点残基(odds ratio=1.5),其编码氨基酸在三维结构中更接近功能位点(P<1E-32),表明模型自发掌握了功能-结构关联。

新型氧化还原酶发现
在3820个宏基因组组装基因组(MAGs)分析中,REBEAN鉴定出407K个未注释基因可能编码氧化还原酶。结构预测显示,这些新型酶与SwissProt已知氧化还原酶具有显著不同的折叠方式(序列相似性<30%),但Pfam分析证实其显著富集氧化还原相关结构域(odds ratio=2.43)。这一发现证实了模型突破序列相似性限制的独特价值。
与传统方法的比较
在极端环境8M读段测试中,REBEAN注释量是DIAMOND比对方法的30倍(6.1% vs 0.2%),与mi-faser注释一致性高(Cohen's κ=0.945)。模型特别擅长识别与参考数据库低相似性(<30%)但功能保守的酶基因,解决了传统方法的最大盲区。

该研究建立的DNA语言模型框架,首次实现了不依赖序列比对的宏基因组功能注释。REBEAN不仅能准确注释已知酶类,更重要的是可发现全新酶家族,其预测结果与功能位点、蛋白结构的生物学证据高度一致。这种基于深度学习的"功能驱动"分析范式,将显著加速微生物组资源的开发利用,在环境修复、药物发现和合成生物学等领域具有广阔应用前景。研究开源的模型和网络服务(https://services.bromberglab.org/rebean/)为微生物组研究提供了全新工具集。
生物通微信公众号
知名企业招聘