
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TENTACLES:一种基于共识机制的机器学习工具,用于在异构数据中高效发现生物标志物
《BioData Mining》:TENTACLES: a consensus machine learning tool for robust biomarker discovery in heterogeneous data
【字体: 大 中 小 】 时间:2026年06月11日 来源:BioData Mining 6.1
编辑推荐:
摘要背景由于模型特异性偏差和数据集异质性,转录组生物标志物的发现往往无法在不同队列中产生可重复的基因特征。虽然单一算法在训练数据上表现良好,但它们通常无法有效泛化。集成方法在一般机器学习应用中已被证明是有效的,然而在转录组学中,基于共识的特征优先级的系统集成仍鲜有研究。结果我们开
由于模型特异性偏差和数据集异质性,转录组生物标志物的发现往往无法在不同队列中产生可重复的基因特征。虽然单一算法在训练数据上表现良好,但它们通常无法有效泛化。集成方法在一般机器学习应用中已被证明是有效的,然而在转录组学中,基于共识的特征优先级的系统集成仍鲜有研究。
我们开发了TENTACLES(转录组探索工具,通过分类聚合实现),这是一个开源的模块化框架,用于通过多算法共识进行稳健的生物标志物发现。该工具是一个开源的R包,可集成多达15种监督学习算法和6种无监督聚类方法。该工具采用模块化架构来自动化数据预处理、多算法特征优先级排序和跨队列验证。通过聚合多个模型中的变量重要性,TENTACLES能够识别出对算法特异性偏差具有抵抗力的基因特征。我们使用克罗恩病作为高异质性案例研究,对来自四个独立公开可用RNA-seq队列的689个样本进行了验证。TENTACLES识别出一个包含28个基因的共识组合,其跨队列泛化能力优于单一算法得出的特征和传统的差异表达方法,并且使用的特征数量减少了95%。这一特征组合进一步精简为仅包含5个基因的核心组合,在完全无监督的验证中仍保持了强大的区分能力。这些结果证实了该工具能够从复杂、噪声较大的数据集中提取稳定的生物信号。
TENTACLES提供了一种可扩展的、与疾病无关的解决方案,用于从异质性转录组数据中识别出最小化的、可重复的基因特征。通过弥合复杂的集成建模与实际生物标志物发现之间的差距,该软件可以成为研究人员在多种疾病背景下寻找可重复生物标志物的多功能资源。
由于模型特异性偏差和数据集异质性,转录组生物标志物的发现往往无法在不同队列中产生可重复的基因特征。虽然单一算法在训练数据上表现良好,但它们通常无法有效泛化。集成方法在一般机器学习应用中已被证明是有效的,然而在转录组学中,基于共识的特征优先级的系统集成仍鲜有研究。
我们开发了TENTACLES(转录组探索工具,通过分类聚合实现),这是一个开源的模块化框架,用于通过多算法共识进行稳健的生物标志物发现。该工具是一个开源的R包,可集成多达15种监督学习算法和6种无监督聚类方法。该工具采用模块化架构来自动化数据预处理、多算法特征优先级排序和跨队列验证。通过聚合多个模型中的变量重要性,TENTACLES能够识别出对算法特异性偏差具有抵抗力的基因特征。我们使用克罗恩病作为高异质性案例研究,对来自四个独立公开可用RNA-seq队列的689个样本进行了验证。TENTACLES识别出一个包含28个基因的共识组合,其跨队列泛化能力优于单一算法得出的特征和传统的差异表达方法,并且使用的特征数量减少了95%。这一特征组合进一步精简为仅包含5个基因的核心组合,在完全无监督的验证中仍保持了强大的区分能力。这些结果证实了该工具能够从复杂、噪声较大的数据集中提取稳定的生物信号。
TENTACLES提供了一种可扩展的、与疾病无关的解决方案,用于从异质性转录组数据中识别出最小化的、可重复的基因特征。通过弥合复杂的集成建模与实际生物标志物发现之间的差距,该软件可以成为研究人员在多种疾病背景下寻找可重复生物标志物的多功能资源。