综述:迈向下一代物种界定方法:机器学习应用概述

【字体: 时间:2025年06月16日 来源:Molecular Phylogenetics and Evolution 3.6

编辑推荐:

  这篇综述系统探讨了机器学习(ML)在物种界定(SDM)领域的应用前景,指出ML能有效处理复杂进化场景和大规模数据集(如NGS数据),弥补了传统基于溯祖理论(MSC)方法的局限性,为整合遗传与表型数据的综合分类学(Integrative Taxonomy)提供了新范式。

  

Abstract

物种界定是区分同一物种种群与不同物种的关键过程,传统方法依赖形态学或分子数据(如基于DNA序列的溯祖理论MSC)。然而,MSC模型在复杂进化场景和大数据集分析中存在局限,例如无法有效处理基因流或杂交事件。机器学习(ML)因其强大的数据挖掘能力成为新兴解决方案,能通过监督(SML)或非监督学习(UML)探索物种分歧假设。本文综述了ML在物种界定中的应用框架,指出其虽具计算高效性,但仍需结合模拟数据验证,并强调未来应开发兼顾多数据类型(如基因组与表型)的算法。

Introduction

物种作为生物学核心单元,其定义长期受“生物学物种概念”(BSC)与“广义谱系概念”(GLC)争论影响。GLC主张物种是独立进化的谱系,无需依赖特定生物学特征,这与综合分类学强调多证据整合的理念一致。现代物种界定方法(SDM)多基于溯祖理论(MSC),但面临基因流、不完全谱系分选(ILS)等挑战。ML的引入为处理高维数据(如NGS数据)和复杂模型选择(如phylogeography)提供了新工具,已在系统发育(phylogenetics)和种群遗传学中展现潜力。

Current ML applications for species delimitation

ML方法可分为发现型(如UML聚类)与验证型(如SML分类),前者无需先验分组(如Pons et al. 2006的基因树聚类),后者需预设假设(如Smith & Carstens 2020的ABC模型)。代表性工具包括:

  1. 卷积神经网络(CNN):将DNA序列转化为图像处理,识别突变模式;
  2. 随机森林(RF):通过位点频率谱(SFS)预测物种边界;
  3. 支持向量机(SVM):区分种群结构与物种级分歧。
    这些方法在模拟数据中表现接近传统似然法,但实际应用中需警惕过拟合风险。

Strengths and benefits

ML的核心优势在于:

  • 计算高效:避免MSC的复杂似然计算,适合大规模数据集;
  • 数据兼容性:可整合基因组、形态学甚至生态位数据;
  • 模型灵活性:处理非树状进化(如网状演化)时优于MSC。
    例如,Derkarabetian et al. 2019利用降维技术(t-SNE)可视化谱系分歧,直观揭示隐藏的物种边界。

Enhancing species delimitation through accessible ML

未来方向包括:

  1. 开发专用算法:针对物种界定优化超参数(如Perez et al. 2021的迁移学习框架);
  2. 标准化流程:建立从数据预处理到结果解释的通用准则;
  3. 跨学科协作:结合进化生物学与计算机科学,提升方法可重复性。

Conclusions

  • ML在物种界定中已展现高效性,但尚未完全替代传统方法;
  • 当前工具多依赖模拟数据,需加强真实数据集验证;
  • 算法透明性与生物可解释性仍是关键挑战。
    作者建议将ML作为MSC的补充工具,推动多证据整合的“下一代SDM”发展。

CRediT authorship contribution statement

Matheus M.A. Salles主导撰写与概念化,Fabricius M.C.B. Domingos负责监督与修订。

Declaration of competing interest

作者声明无利益冲突。

Acknowledgements

感谢巴西CAPES机构的资助,以及多位学者对文稿的建议。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号