MetaVR:基于2400万未培养病毒基因组扩展病毒多样性前沿的综合资源库
《Nucleic Acids Research》:Meta-virus resource (MetaVR): expanding the frontiers of viral diversity with 24 million uncultivated virus genomes
【字体:
大
中
小
】
时间:2025年11月29日
来源:Nucleic Acids Research 13.1
编辑推荐:
为解决未培养病毒基因组(UViG)数据分散、缺乏整合性分析平台的问题,研究团队开发了元病毒资源库MetaVR。该研究整合了来自宏基因组/宏转录组的24,435,662个UViGs,构建了超1200万个病毒操作分类单元(vOTU),新增蛋白聚类、结构预测及API接口功能。MetaVR通过更新ICTV分类框架、引入巴尔的摩分类及iPHoP宿主预测,显著提升病毒多样性探索能力,为病毒进化、宿主互作及生态功能研究提供核心支持。
病毒是地球上最丰富的生物实体之一,广泛存在于所有环境中,通过感染宿主细胞调控其代谢、进化及生态过程。然而,由于绝大多数病毒无法通过传统培养方法获得,人类对病毒多样性的认知仍极为有限。随着高通量测序技术的发展,宏基因组学成为病毒发现的主要手段,催生了海量未培养病毒基因组(Uncultivated Virus Genomes, UViGs)的涌现。尽管已有多个病毒数据库(如NCBI Viruses、ViroidDB等)致力于整理病毒序列,但这些资源多聚焦特定病毒类型或技术平台,缺乏系统性整合,且难以支持大规模数据查询与程序化分析,阻碍了全球病毒组的比较研究。
为突破上述局限,由美国能源部联合基因组研究所(JGI)领衔的国际团队在《Nucleic Acids Research》上发布了元病毒资源库MetaVR。作为IMG/VR数据库的升级版,MetaVR通过整合公共基因组与宏基因组数据,将UViGs数量提升至24,435,662个,较前代增长57.6%,并构建了逾1200万个病毒操作分类单元(vOTUs),成为迄今规模最大的病毒基因组资源库。研究团队通过引入蛋白聚类、AlphaFold3结构预测、API接口等新功能,以及基于ICTV MSL39.v4的分类框架和iPHoP宿主预测算法,显著提升了数据的可挖掘性与可靠性。
MetaVR的构建基于多源数据整合与标准化分析流程:从IMG/M平台获取37,961个宏基因组和8,694个宏转录组数据集,利用geNomad(v1.11)进行病毒预测(假发现率≤2%);通过CheckV评估基因组完整性与污染程度;使用95%平均核苷酸一致性(ANI)和85%比对分数(AF)对UViGs进行vOTU聚类;借助MMseqs2对全部病毒蛋白进行聚类(覆盖率≥85%),并对含≥15个唯一蛋白的聚类利用AlphaFold3预测结构;宿主预测整合了VirusHostDB的真核宿主数据与iPHoP的原核宿主预测结果。
MetaVR收录的UViGs主要来源于海洋与淡水环境,其中线性基因组占比最高(图1B)。通过vOTU聚类生成12,705,385个病毒分类单元(约69%为单例vOTU),病毒多样性在各类环境中均未达饱和(图1E, 1F)。研究首次引入“病毒置信度”分类标准,将UViGs划分为高置信度(11,192,611个)与低置信度(13,243,051个)两组,其中高置信度序列包含23.2万条完整基因组(图1G)。地理分布分析显示,北美与欧洲样本贡献了最多vOTUs,但南美、非洲等地区仍存在采样不足(图2A-C)。
基于ICTV第39版分类体系,97%的UVIGs(23,668,185条)获得至少一个分类层级的标注(图3A)。尾部dsDNA噬菌体(Caudoviricetes)占主导(96%),而巨病毒GVMAGs(Nucleocytoviricota)数量增长近8倍。新增的巴尔的摩分类首次实现全库病毒核酸类型标注,为病毒演化轨迹分析提供基础。宿主预测方面,通过整合VirusHostDB真核宿主数据与iPHoP算法,783万条UViGs获得宿主关联,其中真核宿主注释扩展至5,188个vOTUs(图3B, 3C)。
MetaVR核心创新在于构建了42,390,306个蛋白聚类,并利用AlphaFold3对74.9万个聚类(含≥15个唯一蛋白)进行结构预测,平均pLDDT达79.7%(图4A, 4C)。与Viral AlphaFold Database(VAD)及Big Fantastic Virus Database(BFVD)相比,MetaVR结构集群独特性高(图4B),且覆盖65%的全库蛋白序列。功能注释显示,11,416个Pfam结构域被识别,包括病毒复制与感染相关标志基因(图4E)。环境特异性分析揭示水生环境与人体微生物组中存在大量独特蛋白集群(图4F)。
MetaVR通过全新门户网站(https://www.meta-virome.org/)提供UViG、vOTU、蛋白聚类及结构的检索、过滤与可视化功能(图5A, 5B)。用户可基于BLAST(基因组)、DIAMOND(蛋白序列)或Reseek(结构)进行 homology 搜索,并通过RESTful API(图5C)实现程序化数据调用,支持大规模分析流程集成。
MetaVR通过整合多维数据与创新分析工具,构建了迄今最全面的病毒基因组资源库,显著推动了对全球病毒圈多样性、进化及生态功能的认知。其引入的蛋白结构预测框架为远缘同源识别与功能注释提供新范式,而API接口与标准化分类体系则助力可重复性研究。尽管病毒置信度分级与宿主预测算法降低了假阳性风险,研究者仍需谨慎解读计算预测结果,并通过实验验证与社区 curation 持续优化数据质量。未来,随着测度技术覆盖更多 underrepresented 环境与计算方法的迭代,MetaVR将持续作为病毒组学研究的基石性资源,揭示病毒在生物地球化学循环与宿主适应性中的深层机制。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号