
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习与信息熵的物种编码序列核苷酸组成特征分析及其分类应用
【字体: 大 中 小 】 时间:2025年06月13日 来源:Methods 4.2
编辑推荐:
本研究针对物种分类中基因组特征提取的难题,创新性地结合信息熵与马尔可夫信息密度,对3,735个物种的37,031,061条编码序列(CDS)进行核苷酸组成分析。通过UMAP降维和六种机器学习算法,揭示了真核生物基因冗余度高、病毒突变率显著的进化特征,首次发现一阶与二阶马尔可夫信息密度的负相关性,为物种分类提供了98.5%准确率的分子标记体系。该成果发表于《Methods》,为基因组进化研究与生物信息学工具开发奠定基础。
在生命科学的宏大叙事中,物种分类始终是理解生物多样性的基石。随着基因组学时代的到来,科学家们发现DNA序列中隐藏着比形态特征更本质的进化密码。然而,面对海量的基因组数据,如何从数十亿碱基中提取出具有分类意义的特征?传统方法往往陷入"维度灾难"的困境,这正是当前生物信息学领域亟待突破的瓶颈。
中国的研究团队独辟蹊径,将信息论与机器学习相结合,对跨越病毒、古菌、细菌和真核生物的3,735个物种展开研究。他们发现,编码蛋白质的DNA片段(CDS)中核苷酸的排列并非随机,而是遵循着特定的统计规律。通过计算信息熵(衡量序列不确定性的指标)和马尔可夫信息密度(反映相邻碱基依赖关系的参数),团队首次量化了不同物种在基因组成上的"偏好":真核生物的CDS显示出惊人的冗余性,暗示着频繁的基因复制事件;而病毒序列则表现出高度变异性,与其快速进化策略相符。更令人振奋的是,一阶与二阶马尔可夫信息密度呈现显著的负相关,这一发现为理解密码子第三位点的进化压力提供了全新视角。
研究采用了三大关键技术:1)基于NCBI数据库构建包含37,031,061条CDS的超大规模数据集;2)运用马尔可夫链模型计算序列信息参数;3)通过UMAP(均匀流形近似与投影)算法降维后,采用随机森林等六种机器学习算法进行分类建模。
【数据】
研究团队从NCBI基因组数据库中系统收集了1,328种病毒、321种古菌、1,272种细菌和814种真核生物的CDS数据。统计分析显示,不同类群在序列长度和数量上存在显著差异,为后续比较研究奠定基础。
【信息熵】
通过香农熵计算发现,真核生物CDS的信息熵值最高,表明其基因复杂度远超原核生物。马尔可夫熵分析则显示,随着进化等级提升,生物体对相邻核苷酸组合的依赖性逐渐降低,这一趋势在高等真核生物中尤为明显。
【核苷酸组成】
对四类核苷酸(A/T/C/G)的组成分析揭示出明显的物种特异性模式。病毒表现出强烈的AT偏好(平均含量达64.3%),而古菌则保持相对平衡的碱基分布。变异系数分析进一步证实,真核生物内部核苷酸组成的保守性显著高于微生物。
【结论】
该研究建立了基因组信息参数与物种进化地位的定量关系模型,证实信息熵增长与马尔可夫熵降低构成分子进化的双重驱动力。机器学习模型在物种分类中达到98.5%的准确率,验证了CDS组成特征的分类效能。
【意义】
这项研究不仅为理解遗传信息流动的数学本质提供了新工具,更开创了基于信息理论的基因组分类新范式。其建立的UMAP-机器学习联合分析框架,可广泛应用于病原体溯源、濒危物种鉴定等实际场景。正如研究者所言:"当我们将DNA序列视为信息载体而非单纯的化学分子时,生命进化史便展现出前所未有的清晰图景。"
生物通微信公众号
知名企业招聘