delimtools:一个用于物种界定(species delimitation)的R语言程序包

《Genome》:delimtools: an R package for species delimitation

【字体: 时间:2026年06月14日 来源:Genome 1.7

编辑推荐:

  摘要:基于DNA条形码(DNA barcoding)数据的单基因座物种界定(single-locus species delimitation)方法在大规模生物多样性清查及整合分类学(integrative taxonomy)中发挥了重要作用,可从海量个体中快

  
摘要:基于DNA条形码(DNA barcoding)数据的单基因座物种界定(single-locus species delimitation)方法在大规模生物多样性清查及整合分类学(integrative taxonomy)中发挥了重要作用,可从海量个体中快速、可重复地估算α多样性。目前已有多种基于距离和基于系统树的方法用于此类分析,包括ABGD(Automatic Barcode Gap Discovery)、ASAP(Assemble Species by Automatic Partitioning)、GMYC(General Mixed Yule–Coalescent)和mPTP(multi-rate Poisson Tree Processes)等。然而,各软件的输出格式各异,难以整合与比较。R语言程序包delimtools提供了一个集成平台,能够:(1) 对数据进行预处理、清洗和格式化;(2) 折叠并汇总单倍型(haplotype)信息;(3) 执行、解析并合并各程序的输出结果与物种划分(species partitions);(4) 制作结果统计表并在系统发育树上可视化展示。该开源delimtools程序包为规模化、标准化的物种界定分析提供了新途径,可在CRAN(https://cran.r-project.org/package=delimtools)及GitHub(https://github.com/legalLab/delimtools/)获取。
论文解读:delimtools——用于单基因座物种界定的R包及其在鱼类DNA条形码分析中的应用
一、研究背景与立题依据
物种是生物多样性的基本单元,物种界定(species delimitation)与描述是分类学的核心任务。传统物种概念依赖表型差异,但形态隐存种(morphologically cryptic species)广泛存在,分子数据特别是DNA条形码(通常为线粒体细胞色素c氧化酶亚基I,COI-5P)成为发现潜在新种的重要手段。单基因座无先验假设(unsupervised)的物种发现方法包括基于单倍型网络(haploweb)、基于遗传距离(如ABGD、ASAP及局部极小值法localMinima in spider包)和基于系统发育树(如GMYC需输入超度量树ultrametric tree;mPTP、PTP需输入有根系统发生树phylogram)三大类。由于单一方法存在偏差,推荐联用多种独立方法取共识界定(consensus delimitation),以降低I型错误(将种群结构误判为物种)。然而,现有各算法输出格式异构、非表格化,缺乏统一的R环境下前处理—执行—解析—合并—可视化的工作流,研究者常需编写临时脚本,不利于标准化与可重复性。iTaxoTools和SPdel虽能整合部分方法但基于Python,R生态中尚缺此类综合工具。为此,研究人员开发了R包delimtools,旨在填补这一空白。本文发表于《Genome》。
二、主要关键技术方法概述
研究人员以南美吸土丽鱼属(Geophagus sensu stricto)鱼类COI-5P序列为实证数据,从NCBI核苷酸数据库下载后经VSEARCH聚类、MAFFT比对、trimAl去缺失位点、RAxML-NG质控筛选,获得354条序列比对至690 bp。使用delimtools函数hap_collapse折叠为137个独特单倍型用于树法(GMYC、bGMYC、PTP、mPTP),未折叠FASTA用于距离法(ABGD、ASAP、localMinima)。各方法通过delimtools中*_tbl系列函数执行或解析外部输出,delim_join合并结果并重编码分区,delim_consensus按多数投票(majority-vote,n_match=4)生成共识界定,并将形态分类学假设以morph_tbl纳入比较。采用match_ratio评估方法间一致性,delim_autoplot将各方法分区标注于BEAST v2构建的最大分支可信树(Maximum Clade Credibility Tree)上可视化。
三、研究结果
Delimiting lineages of Geophagus eartheating cichlid fishes(Geophagus吸土丽鱼鱼类谱系界定)
经过NCBI-supermatrix流程质控后获354条Geophagus COI-5P序列(10个有效种及6个未描述分类单元),折叠为137个单倍型。各方法界定 lineage数为:mPTP 11、ASAP 14、形态学(morphology)16、PTP 17、bGMYC 18、ABGD 19、GMYC与LocMin各21。多数投票共识界定为16个谱系。G. megasema未达完全共识(部分方法将其与Geophagus sp.1合并,部分单独分出,距离法进一步拆为两 lineage);G. altifrons与G. neambi各方法及共识(除形态学外)均界定为同一谱系且无互为单系(reciprocal monophyly);G. proximus和G. winemilleri提示内部含额外谱系。match_ratio显示方法间一致性由ABGD/LocMin的0.85至LocMin/mPTP的0.25不等,mPTP整体与其他方法吻合度偏低(多<0.5),而共识界定与bGMYC吻合最高(0.94),与mPTP较低(0.52);形态学假设与共识虽同划为16组但仅11例一致(match ratio=0.69)。
四、讨论与结论翻译总结
研究人员指出,delimtools不止是单基因座物种界定流程,更提供数据前处理、单倍型汇总、多方法输出标准化解析合并、共识界定生成、匹配比率(match ratio)统计及系统树可视化等功能,便于大尺度生物多样性研究中比较与解释不同界定结果。通过delim_join和delim_consensus可纳入任意用户自定义物种假设(形态学、生态位、基因组界定等),推动向整合分类学框架迈进。选择R语言使delimtools可利用其强大数据分析与ggplot2/ggtree可视化生态,且具跨平台、开源及生物多样化学者广泛使用的优势。
综上,delimtools是一个开源R包,统一了以DNA条形码为基础的单基因座物种界定分析中自序列清洗、单倍型折叠、多算法(ABGD、ASAP、localMinima、GMYC、bGMYC、mPTP/PTP及形态学假设)执行或解析、结果合并取共识、一致性检验到系统发育树可视化展示的全流程,并通过Geophagus鱼类实例验证其有效性,为标准化与规模化物种发现及整合分类学研究提供了可重复的分析平台。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号