
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多基因座系统发育中无效重叠问题的创新解决方案:基于连接异常体与基因树折刀法的靶向测序策略
【字体: 大 中 小 】 时间:2025年07月04日 来源:Systematic Biology 6.1
编辑推荐:
本研究针对多基因座系统发育分析中因无效重叠(ineffective overlap)导致的分类学不稳定性问题,创新性地将连接异常体(concatabominations)方法与基因树折刀法(gene-tree jackknifing)相结合,开发出可识别靶向测序候选类群和位点的解决方案。通过蚓螈类(Gymnophiona)数据集验证,该方法能有效缓解拓扑不稳定性,为系统发育研究提供了高效的数据补充策略。
在构建生命之树的过程中,系统发育学家长期面临一个棘手的难题——缺失数据导致的分类学不稳定性。特别是在多基因座分析中,当不同基因的数据矩阵存在"无效重叠"(ineffective overlap)时,即使单个基因树支持度很高,最终的系统发育关系仍可能模糊不清。这种现象如同拼图游戏缺少关键连接片,使得研究者难以准确还原演化历史的完整图景。传统解决方案往往简单粗暴地删除"不稳定类群",但这会损失宝贵的生物多样性信息,且无法从根本上解决数据缺失问题。
英国自然历史博物馆、布里斯托大学等机构的研究团队Ana Serra Silva等人另辟蹊径,将原本用于形态学数据矩阵的"连接异常体"(concatabominations)方法创新性地应用于多基因座系统发育研究。该方法通过构建人工组合体来模拟强制合并类群的效果,结合新开发的基因树折刀法,能精准定位需要补充测序的关键类群和基因位点。研究人员以蚓螈类两栖动物为模型,证明该方法不仅能识别不稳定类群,更能指导高效的数据补充策略——仅需对少数关键位点进行靶向测序,即可显著提升系统发育树的分辨率。这项发表于《Systematic Biology》的研究,为处理系统发育中的缺失数据问题提供了新思路。
关键技术方法包括:1)从GenBank获取蚓螈类24个基因座(15个线粒体基因和9个核基因)的序列数据;2)使用Gblocks处理多序列比对;3)通过MrBayes进行基因树推断;4)应用矩阵表示法(MRP)构建超树;5)开发连接异常体分析流程评估分类学不稳定性;6)实施基因树折刀法识别关键靶向测序位点;7)利用terraphy分析平台空间特征。
研究结果部分:
应用连接异常体方法识别不稳定类群
分析发现塞舌尔蚓螈Hypogeophis montanus构成包含17个类群的不稳定簇,该物种仅在1/24的基因树(BDNF基因)中出现,且与其他Hypogeophis物种形成多分支结构。删除该物种后,超树严格共识的分辨率从ρ=0.72提升至0.86,恢复了印度与塞舌尔Grandisoniidae类群间的明确分化。
基因树折刀法指导靶向测序
通过系统移除各基因树后的连接异常体分析,鉴定出6个"稳定化"基因(12S rRNA、16S rRNA、COX1、CYTB、ND1和H3A),其中16S rRNA的移除导致网络边数增幅最大(从59增至135),表明其是最具潜力的靶向测序位点。值得注意的是,虽然RAG1和ND2的类群覆盖度更高,却未被识别为关键位点,显示类群覆盖度并非决定基因稳定性的唯一因素。
靶向数据补充验证
意外发现先前误标为12S rRNA的H. montanus 16S rRNA序列后,将其加入分析使网络边数锐减至23,超树分辨率进一步提升至ρ=0.91。这一结果证实:针对特定类群-基因对的少量数据补充,即可显著改善系统发育推断。相比之下,基于数学的基因采样充分性(ζ)分析显示,要达到分类覆盖决定性需308个基因座,远高于实际需求。
平台空间与采样充分性分析
重新分析Dobrin等(2018)的数据集显示,连接异常体方法平均仅需识别2-4个靶向测序位点,比基因采样充分性计算的kmin值(通常需数百至数千个位点)更切实可行。terraphy分析表明,添加单个序列(H. montanus的16S rRNA)可使平台大小从99个树降至1个,而伪数据分析显示对候选位点(除H3A外)补充数据均能减少不稳定性。
这项研究突破了传统处理缺失数据的思维局限,将系统发育不稳定性从需要规避的"问题"转化为指导数据补充的"路标"。其创新价值体现在三方面:方法学上,首次将连接异常体与基因树折刀法结合,建立了评估无效重叠的新框架;实践层面,提供了可操作的靶向测序方案,大幅降低解决数据缺失问题的成本;理论上,揭示了类群覆盖模式与基因树信息含量的复杂关系,挑战了"越多数据越好"的简单认知。特别对于蚓螈类等难以获取样本的类群,该方法能最大限度利用现有数据指导后续采样,对保护生物学研究也具有重要启示。未来研究可探索该方法在大规模基因组数据中的应用潜力,以及如何整合系统发育冲突(如基因树-物种树不一致)对不稳定性评估的影响。
生物通微信公众号
知名企业招聘