PseudoChecker2与PseudoViz:基因组时代基因丢失分析的自动化与可视化新工具

《Bioinformatics Advances》:PseudoChecker2 and PseudoViz: automation and visualization of gene loss in the Genome Era

【字体: 时间:2025年11月23日 来源:Bioinformatics Advances 2.8

编辑推荐:

  本研究针对高通量基因组数据中基因失活(如假基因化)事件检测的自动化与可视化挑战,开发了PseudoChecker2命令行工具及PseudoViz可视化平台。该研究通过改进算法实现跨物种基因丢失突变(如提前终止密码子、移码突变)的高效检测,并结合系统发育分析揭示CYP2J19基因在夜行性鸟类中的适应性丢失规律。工具集成AGAT注释解析与MACSE多序列比对技术,为进化基因组学研究提供标准化解决方案。

  
随着地球生物基因组计划(Earth BioGenome Project)等大型基因组测序项目的推进,科学家们获得了海量的基因组数据。这些数据为了解生物进化机制和表型多样性提供了前所未有的机会。然而,如何从这些庞大的数据中有效检测基因失活事件——即功能性基因因突变而失去功能,变成假基因(pseudogene)——成为了一个重要的挑战。基因失活是进化过程中普遍存在的现象,对生物适应性进化具有深远影响。例如,某些动物谱系中特定基因的丢失可能与它们对特殊环境(如黑暗环境)的适应有关。
现有的基因失活检测工具,如最初的PseudoChecker网络工具,虽然用户友好,但在处理大规模数据集(如超过20个序列)时效率低下,且难以集成到自动化分析流程中。其他可用工具也存在类似局限,或者不适用于远缘真核生物谱系间的基因状态评估。为了克服这些限制,研究人员开发了新一代的分析工具。
在这篇发表于《Bioinformatics Advances》的文章中,研究人员介绍了PseudoChecker2和PseudoViz。PseudoChecker2是原有PseudoChecker工具的命令行版本,显著提升了处理大规模基因组数据集的能力。它能够自动化地识别导致基因失活的剧烈突变事件,如提前终止密码子(premature stop codons)、缺失(deletions)和插入(insertions)。更重要的是,PseudoViz作为一个新颖的图形化界面,旨在通过直观的可视化方式帮助用户解读PseudoChecker2的分析结果。这两个工具的结合,既提供了命令行工具的灵活性和自动化能力,又保留了图形界面的用户友好性,以应对基因组时代的研究挑战。
研究人员为开展此项研究,主要运用了以下几项关键技术:基于Python3开发了PseudoChecker2核心算法;利用Needleman-Wunsch全局比对算法进行外显子注释;集成AGAT工具从GTF/GFF格式的基因组注释文件中自动创建参考序列;采用MACSE进行考虑移码和终止密码子的多序列比对;基于Flask框架开发了PseudoViz可视化Web应用;利用Conda和Docker确保工具的可重复性和易部署性。

2 Application Description

PseudoChecker2的核心功能是基于外显子比对来推断突变。其输入包括目标基因组区域、目标外显子序列以及参考基因的编码序列(CDS)。该工具利用Needleman-Wunsch算法将每个参考外显子与目标基因组序列进行比对,并根据剪接位点保守性和序列相似性评分选择最佳比对结果。通过分析比对结果,PseudoChecker2可以推断出移码突变和提前终止密码子,并计算一个名为“PseudoIndex”的指标,该指标基于被破坏的编码框架百分比来评估基因的失活程度。PseudoViz则将这些结果以多种形式呈现,包括单个外显子的比对情况、突变在基因组区域中的位置、多序列比对视图以及系统发育树视图。在系统发育树视图中,节点颜色对应PseudoIndex值,可以直观展示基因在进化树不同分支上的退化情况。

2.2 Application: inactivation of the CYP2J19 gene in birds

为验证工具的有效性,研究人员分析了鸟类CYP2J19基因的编码状态。该基因负责鸟类和龟类视网膜中红色油滴的产生,其失活与鸟类对弱光环境的适应有关。研究成功在企鹅、猫头鹰和几维鸟中复现了已知的CYP2J19基因失活突变。此外,还发现了此前未报道的失活突变案例:在横斑裸鼻鸱鸦(Aegotheles bennetti)和油鸱(Steatornis caripensis)这两种适应弱光环境的夜行性鸟类中发现了潜在的失活突变。其中,横斑裸鼻鸱鸦的突变是编码序列中部的提前终止密码子,更具破坏性;而油鸱的突变可能涉及起始密码子的改变。系统发育分析表明,这两个突变事件是独立发生的,因为油鸱和裸鼻鸱鸦在Strisores类群中亲缘关系较远,并且在其他Strisores鸟类(如欧洲夜鹰Caprimulgus europaeus)中未发现失活突变,这与后者视网膜中存在红色油滴的观察结果一致。

3 Concluding remarks

PseudoChecker2和PseudoViz的开发旨在标准化和简化假基因检测流程,并允许在系统发育树的背景下可视化单个基因的编码状态。这种系统发育分析(phylogenetic profiling)方法不仅有助于理解物种对其生态位的基因组适应,还能帮助识别蛋白质未知功能或导致特定表型的蛋白质相互作用。此外,该工具的应用潜力不仅限于比较基因组学,还可用于从日益增长的群体基因组数据集中识别群体特异性变异。通过将PseudoChecker2和PseudoViz整合到基因组学研究中,研究人员能够更全面地理解基因在分化谱系和群体中的动态变化。
该研究的重要意义在于它提供了一套强大的生物信息学工具,将自动化分析与直观可视化相结合,极大地促进了基因丢失事件的发现和研究。这对于揭示基因功能进化、理解物种适应性演化的分子机制以及探索基因型与表型之间的关联具有重要价值。随着基因组数据的持续增长,此类高效、易用的分析工具将在生命科学研究中发挥越来越关键的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号