
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于强化学习与蒙特卡洛树搜索的宏基因组数据中巨型病毒精准检测工具GiantHunter的开发与应用
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对核质大DNA病毒(NCLDVs)在宏基因组数据中检测灵敏度低、计算成本高的难题,开发了基于强化学习与蒙特卡洛树搜索(MCTS)的智能工具GiantHunter。通过动态选择代表性非NCLDV序列作为负训练数据,结合蛋白质簇(PC)Transformer模型,实现了F1-score提升10%、计算成本降低90%的突破。应用于长江三峡大坝上下游样本分析,首次揭示了水坝建设对NCLDV群落多样性的显著影响,为病毒生态学研究提供了新范式。
在微生物世界的隐秘角落,存在着一类颠覆传统认知的"巨型病毒"——核质大DNA病毒(NCLDVs)。这些基因组可达2.5Mb的庞然大物,不仅尺寸堪比细菌,更在碳循环、藻华调控甚至抗生素抗性基因(ARGs)传播中扮演关键角色。然而,由于NCLDVs极高的基因组多样性(家族间氨基酸同一性AAI低至20%)以及与噬菌体的基因同源性,传统基于标记基因比对或机器学习的方法难以兼顾检测灵敏度与精确度。更棘手的是,宏基因组组装产生的短片段(5-20kb)往往缺乏完整标记基因,使得现有工具在真实环境样本中的表现大打折扣。
香港城市大学电子工程系与香港中文大学信息工程系的研究团队另辟蹊径,将强化学习(RL)与病毒基因组"语言模型"相结合,开发出革命性的检测工具GiantHunter。该研究通过蒙特卡洛树搜索(MCTS)智能筛选训练样本,结合蛋白质簇(PC)Transformer模型,在《Bioinformatics》发表了这一突破性成果。关键技术包括:1)构建含227个NCLDV和5145个有尾噬菌体(Caudoviricetes)基因组的训练集;2)采用MCTS策略动态选择最具挑战性的负样本;3)开发PC-ID序列转换方法,将contigs转化为蛋白质"句子";4)设计含多头注意力机制的Transformer分类器。
研究结果部分揭示:
性能验证:在时间划分测试集上,GiantHunter的F1-score达0.933,显著优于VirSorter2(0.756)和ViralRecall(0.812)。


算法优势:MCTS策略使模型精准锁定噬菌体中的"硬样本",相较随机采样训练使F1-score提升1.8%。

实际应用:分析长江三峡大坝上下游60个样本时,发现大坝上游NCLDV多样性随接近坝体而显著增加(Shannon指数p<0.01),下游武汉段则急剧下降。

该研究的突破性在于:1)开创性地将RL框架引入病毒检测领域,MCTS策略为处理层级化生物数据提供新范式;2)PC-Transformer模型突破传统比对方法的局限性,能捕捉NCLDVs特有的基因组织模式;3)10倍的速度提升使大规模环境样本分析成为可能。正如研究者指出,未来通过整合16S/ITS等过滤模块,可进一步降低0.3%的非病毒序列误检率。这项成果不仅为病毒生态学研究提供利器,其方法论更可拓展至质粒识别、病原体检测等领域,展现出跨学科融合的巨大潜力。
生物通微信公众号
知名企业招聘