
-
生物通官微
陪你抓住生命科技
跳动的脉搏
HIPSTR算法:构建高支持度系统发育树的新范式在TreeAnnotator X中的实现
【字体: 大 中 小 】 时间:2025年09月10日 来源:Bioinformatics 5.4
编辑推荐:
为解决贝叶斯系统发育分析中传统最大分支可信度树(MCC)遗漏高支持度分支的问题,研究者开发了最高独立后验子树重建算法(HIPSTR)及其多数规则扩展版MrHIPSTR。通过EBOV和SARS-CoV-2数据集验证,HIPSTR构建的树包含更多高支持度分支(≥95%)且计算效率提升2倍,为大规模基因组分析提供了更可靠的系统发育树重建工具。
在病毒进化研究和疫情溯源领域,准确重建系统发育关系如同绘制生命科学的"家族图谱"。传统贝叶斯分析方法通过马尔可夫链蒙特卡洛(MCMC)采样获得大量系统发育树后,通常使用最大分支可信度树(Maximum Clade Credibility tree, MCC)作为代表。但这种方法存在明显缺陷——就像用渔网捕捞时漏掉许多大鱼,MCC树常常遗漏后验概率≥50%的分支,甚至可能丢失支持度高达99%的关键进化关系。
这种"漏网之鱼"现象在分析EBOV(埃博拉病毒)和SARS-CoV-2等病原体时尤为突出。当研究者试图通过这些系统发育树重建病毒传播路径或估算分歧时间时,缺失的关键分支可能导致错误结论。例如在2018-2020年刚果(金)埃博拉疫情分析中,MCC树显示的曼迪马-贝尼地区病毒反复横跳传播模式,可能只是算法缺陷造成的假象。
为解决这一难题,来自比利时鲁汶大学、美国加州大学洛杉矶分校等机构的跨国团队开发了最高独立后验子树重建算法(HIPSTR)。该算法创新性地采用动态规划策略:首先收集所有观测到的分支及其频率,然后按分支规模从小到大处理,为每个分支寻找最大可信子树(Maximum Credibility Subtree, MCST)。对于大规模分支,算法会评估所有观测到的子分支组合,选择分支频率乘积最高的兼容组合。这种"分而治之"的策略确保最终树包含所有高支持度的兼容分支,即使这个完整树从未被MCMC采样到。
研究团队在TreeAnnotator X软件中实现了HIPSTR及其多数规则扩展版MrHIPSTR,并对比分析了516株EBOV和3959株SARS-CoV-2等四个数据集。结果显示:在516株EBOV分析中,MCC树遗漏了17个支持度≥50%的分支,而HIPSTR仅遗漏1个;在3959株SARS-CoV-2分析中,MCC树遗漏111个中等支持度分支,HIPSTR仅遗漏20个。更惊人的是计算效率——HIPSTR处理15616株SARS-CoV-2数据仅需52秒,比MCC快40%,而同期CCD0-MAP算法因内存不足无法完成计算。

技术方法上,研究主要采用:1)基于HKY+Γ核苷酸替代模型模拟EBOV序列数据;2)BEAST X(v10.5.0)进行1亿次迭代的贝叶斯系统发育推断;3)开发新型树形摘要算法比较框架,评估HIPSTR、MCC和CCD0-MAP等方法的性能指标,包括分支支持度覆盖率和计算耗时。
研究结果部分显示:
算法性能比较:在516株EBOV数据中,HIPSTR的中位分支支持度(0.2751)显著高于MCC(0.1555),且计算时间缩短47%。MrHIPSTR更实现完美表现,包含所有177个支持度≥50%的分支。

流行病学影响:在EBOV传播路径重建中,HIPSTR树显示出更合理的单次跨区域传播模式,而MCC树则产生违反流行病学常识的反复横跳假象。
大规模数据适应性:面对15616株SARS-CoV-2数据,CCD0-MAP因内存需求过高无法完成计算,而HIPSTR保持稳定性能,完整包含3980个支持度≥50%的分支。
讨论部分强调,HIPSTR的创新性在于突破了传统MCC树必须来自实际采样树的限制,通过智能组合高支持度分支构建"理想"树。这类似于用散落拼图块还原完整图画,而非简单选择最接近完整的碎片。研究者特别指出,在解释系统发育分析结果时,包含重要分支比追求整体似然值最大化更为关键——正如在EBOV分析中,一个关键传播事件的准确重建可能改变整个疫情防控策略。
该研究的现实意义深远:随着全球病原体基因组 surveillance 网络扩展,系统发育分析正处理数百万级基因组数据。HIPSTR兼顾准确性与效率的特点,使其成为应对未来疫情大流行的关键工具链环节。正如作者在文末展望,下一步将评估HIPSTR在更广泛病原
生物通微信公众号
知名企业招聘