
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于BLAST+输出的轻量级可视化工具Dotplotic开发及其在基因组比较研究中的应用
【字体: 大 中 小 】 时间:2025年08月28日 来源:BMC Bioinformatics 3.3
编辑推荐:
为解决基因组比对结果可视化工具依赖内置算法、难以直接处理BLAST+输出的问题,Hideyuki Miyazawa团队开发了基于Perl的Dotplotic工具。该工具通过解析BLAST表格化输出(-outfmt 6/7/10),生成SVG格式点阵图,支持序列相似度梯度着色和注释数据叠加。研究证实其能有效识别酵母基因组重组事件(如S. pastorianus染色体SeIII-ScIII的异源重组),为基因组进化研究提供轻量化跨平台解决方案。
随着高通量测序技术的发展,染色体级别基因组组装已覆盖从病毒到脊椎动物的广泛物种。然而,如何直观呈现大规模序列比对结果仍是生物信息学领域的挑战。传统点阵图工具如Dotter、Gepard等依赖专用比对算法,而广泛使用的BLAST+输出却缺乏高效可视化方案。这种割裂导致研究人员需要繁琐的数据转换步骤,尤其在分析非编码区(如内含子、重复序列)和基因组重排事件时效率低下。
日本山梨大学Hideyuki Miyazawa和Toshiyuki Oda团队在《BMC Bioinformatics》发表的研究,开发了名为Dotplotic的Perl脚本工具。该工具直接解析BLAST+的表格输出(含qaccver、pident等9个必填字段),将每个比对结果转化为带颜色梯度的线段(100%相似度显示为红色,60%为绿色),并支持GFF/BED格式注释叠加。通过三组酵母(S. pastorianus/CBS 1483、S. cerevisiae、S. eubayanus)的基因组比对案例,研究团队证实Dotplotic能清晰捕捉染色体异源重组(如SeIII-ScIII中约2/3区段源自S. eubayanus)、转座事件(如ScVII的100 kbp易位)以及长末端重复序列(LTR)的扩张模式。
关键技术方法包括:1)基于BLAST+的基因组间比对(过滤<1 kbp短比对);2)Minimapsam2blast6模块实现minimap2的SAM格式转换;3)EditDotplotic进行SVG输出定制化调整;4)DotploticGUI.py提供图形界面封装。测试数据涵盖果蝇、拟南芥等模式生物,服务器环境下处理百万级比对记录时启用"light"模式可降低90%内存消耗。
主要研究结果:
• 工具设计:通过四步流程实现可视化——读取BLAST输出、计算序列统计量(含最佳路径搜索)、确定绘图布局、渲染比对线段和注释矩形。独特之处在于自动优化序列排序,使主要比对呈对角线分布。
• 性能优化:在32条酵母染色体(总长23 Mbp)比对中,预处理过滤使BLAST结果从23 MB降至1 MB,生成SVG仅需2分钟。通过"click"选项可交互查看对象信息。
• 生物学发现:在S. pastorianus中鉴定出ScXII染色体与S. cerevisiae XII号染色体的LTR关联重复区,揭示转座子扩增机制;SeVII-ScVII的100 kbp区域比对提示种间转座事件。
讨论部分强调,Dotplotic填补了BLAST+生态系统的可视化空白,其优势体现在三方面:1) 直接兼容主流比对工具输出,避免数据转换损失;2) 注释叠加功能助力非编码区分析(如案例中LTR与重复序列的关联);3) 仅依赖Perl核心模块,在无图形界面的服务器环境中仍可运行。相比第二代工具如D-GENIES,虽然牺牲了交互性,但更适合批量处理多基因组比对(如细菌泛基因组分析)。作者建议对超大规模数据启用"light"模式,并配合EditDotplotic调整SVG元素密度。
这项研究为进化基因组学(如杂交物种起源分析)和临床微生物学(如毒力基因岛追踪)提供了灵活的可视化方案。未来可通过集成GPU加速进一步提升百万级比对的渲染效率,其模块化设计也为其他比对工具(如DIAMOND)的输出支持预留了扩展空间。
生物通微信公众号
知名企业招聘