
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:迈向下一代物种界定方法:机器学习应用概述
【字体: 大 中 小 】 时间:2025年06月16日 来源:Molecular Phylogenetics and Evolution 3.6
编辑推荐:
这篇综述系统探讨了机器学习(ML)在物种界定(SDM)领域的应用前景,指出ML能有效处理复杂进化场景和大规模数据集(如NGS数据),弥补了传统基于溯祖理论(MSC)方法的局限性,为整合遗传与表型数据的综合分类学(Integrative Taxonomy)提供了新范式。
物种界定是区分同一物种种群与不同物种的关键过程,传统方法依赖形态学或分子数据(如基于DNA序列的溯祖理论MSC)。然而,MSC模型在复杂进化场景和大数据集分析中存在局限,例如无法有效处理基因流或杂交事件。机器学习(ML)因其强大的数据挖掘能力成为新兴解决方案,能通过监督(SML)或非监督学习(UML)探索物种分歧假设。本文综述了ML在物种界定中的应用框架,指出其虽具计算高效性,但仍需结合模拟数据验证,并强调未来应开发兼顾多数据类型(如基因组与表型)的算法。
物种作为生物学核心单元,其定义长期受“生物学物种概念”(BSC)与“广义谱系概念”(GLC)争论影响。GLC主张物种是独立进化的谱系,无需依赖特定生物学特征,这与综合分类学强调多证据整合的理念一致。现代物种界定方法(SDM)多基于溯祖理论(MSC),但面临基因流、不完全谱系分选(ILS)等挑战。ML的引入为处理高维数据(如NGS数据)和复杂模型选择(如phylogeography)提供了新工具,已在系统发育(phylogenetics)和种群遗传学中展现潜力。
ML方法可分为发现型(如UML聚类)与验证型(如SML分类),前者无需先验分组(如Pons et al. 2006的基因树聚类),后者需预设假设(如Smith & Carstens 2020的ABC模型)。代表性工具包括:
ML的核心优势在于:
未来方向包括:
Matheus M.A. Salles主导撰写与概念化,Fabricius M.C.B. Domingos负责监督与修订。
作者声明无利益冲突。
感谢巴西CAPES机构的资助,以及多位学者对文稿的建议。
生物通微信公众号
知名企业招聘