
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于峰度优化的投影追踪与决策树集成:一种革新性的多组学数据整合与生物标志物发现机器学习框架
【字体: 大 中 小 】 时间:2025年09月19日 来源:Nucleic Acids Research 13.1
编辑推荐:
本研究针对多组学数据异质性高、低强度信号易被忽略、小效应规模难以检测等挑战,开发了基于峰度优化的投影追踪分析结合分类回归树(kPPA-CART)的新型机器学习方法。该方法在模拟和真实数据中均表现出优越的聚类性能和生物标志物识别能力,成功应用于乳腺癌分子分型和转移机制解析,为高维生物数据挖掘提供了强大且用户友好的工具。研究发表于《Nucleic Acids Research》,并配套提供R包和在线平台。
多组学技术的快速发展为生物医学研究提供了前所未有的系统视角,然而,海量异构数据的整合与分析仍是巨大挑战。不同类型组学数据(如转录组、蛋白质组、表观基因组)具有迥异的分布特性、动态范围和噪声结构,使得传统基于方差最大化的分析方法(如主成分分析PCA)难以捕捉低强度信号和小效应生物学差异。更棘手的是,当前多数分析方法依赖高变异特征筛选,无形中过滤了大量潜在具有生物学意义的低丰度分子信息,导致重要生物标志物和机制线索被遗漏。
为解决上述问题,Dalhousie大学研究团队在《Nucleic Acids Research》发表了题为“Augmented kurtosis-based projection pursuit: a novel, advanced machine learning approach for multi-omics data analysis and integration”的研究论文,开发了一种基于峰度(Kurtosis)优化的投影追踪分析(kPPA)结合分类回归树(CART)的集成机器学习方法(kPPA-CART)。该方法通过创新性地采用峰度作为投影指标,有效识别多组学数据中的非高斯分布结构,并结合重采样策略与特征重要性评估,实现了对低强度信号和小效应生物学差异的灵敏检测。
研究采用三个公开多组学数据集进行方法学验证与应用探索:Takemon小鼠肾脏衰老数据集(蛋白质组+转录组)、TCGA-BRCA乳腺癌数据集(转录组+蛋白质组+甲基化组)和AURORA美国转移性乳腺癌项目数据集(转录组+甲基化组)。关键技术方法包括:基于峰度最小化的投影追踪算法(kPPA)寻找数据投影方向;多维标度(MDS)降维去噪;k均值聚类确定样本类别;随机森林(Random Forest)分类器评估特征重要性;通过重复抽样和特征重采样确保结果稳健性;使用轮廓系数(Silhouette Coefficient)评估聚类质量。
研究团队首先使用Takemon数据集对kPPA-CART与七种主流多组学整合方法(MOFA、iClusterPlus、intNMF、MCIA、IPCA、MDS、tICA)进行了系统对比。结果表明,当使用低变异特征(数据集中变异程度最低的3%-30%特征)进行分析时,传统方法几乎无法识别任何生物学聚类(轮廓系数接近0),而kPPA-CART即使仅使用15%的最低变异特征仍能清晰区分年龄和性别相关聚类。在效应规模模拟实验中,kPPA-CART在效应大小>0.7时真阳性检出率超过90%,远优于其他方法。特别值得注意的是,kPPA-CART从底部15%低变异特征中识别出的重要特征与全数据集分析结果重叠率极低(仅10个特征重叠),证明该方法能发现传统方法忽略的生物信息。
应用kPPA-CART重新分析Takemon小鼠肾脏数据发现,蛋白质组数据在比较6月龄与18月龄小鼠时显示出清晰的年龄与性别交互聚类模式,而传统PCA分析仅能区分性别差异。整合分析蛋白质组和转录组数据鉴定出溶质载体(SLC)家族成员(Slc22a6、Slc13a3、Slc43a2和Slc26a1)作为年龄相关差异表达关键蛋白,这些蛋白在老年小鼠中表达下调且存在性别差异。同时发现Uty、Gm20775、Ugt8a和Mpped1等基因主要区分性别而非年龄效应。这些发现为肾脏衰老的分子机制提供了新见解。
在TCGA-BRCA数据分析中,kPPA-CART成功识别出350个特征基因集,能够将乳腺癌样本清晰分为Basal、HER2+、Luminal A、Luminal B和Normal-like五种分子亚型,分类效果显著优于基于PAM50基因集的传统方法。将该特征集应用于独立验证队列AURORA数据集,同样显示出优越的亚型区分能力。进一步分析发现,kPPA-CART能够识别与转移状态相关的特征基因(如ENTPD1、MYSM1、MAP3K2、ESR2和AURKAIP1),生存分析证实这些基因的表达水平与患者无事件生存期显著相关。
对AURORA数据集的甲基化与转录组整合分析发现了一个意外现象:样本聚类的主要驱动因素不是原发与转移状态,而是肿瘤突变负荷(Tumor Mutation Burden, TMB)。无论使用全特征集、高变异特征子集还是低变异特征子集,kPPA-CART均能将高TMB与低TMB样本清晰分离,提示TMB作为乳腺癌异质性的重要维度可能独立于传统的转移状态分类。
该研究开发的kPPA-CART方法突破了传统多组学分析对高变异特征的依赖,实现了对低强度信号和小效应生物学差异的灵敏检测。通过三个独立数据集的验证,证明该方法在识别生物学相关特征、改善疾病分型和发现新型生物标志物方面具有显著优势。特别值得关注的是,kPPa-CART不仅提供了算法实现,还发布了用户友好的R包和网络服务器(https://www.karakachlab.org/software/intmove),极大降低了非生物信息学专家使用该技术的门槛。
研究结果表明,基于峰度优化的投影追踪策略能够有效捕捉多组学数据中的非高斯分布结构,这些结构往往对应着重要的生物学变异。与方差最大化方法相比,峰度最小化对分布形态的变化更为敏感,特别适合识别多模态分布(对应不同生物学状态)和重尾分布(对应异常样本或稀有细胞类型)。结合重采样和集成学习策略,kPPA-CART有效克服了高维数据中的过拟合问题,保证了特征选择的稳健性。
这项研究为多组学数据整合分析提供了新范式,特别是在处理低强度信号和小效应规模数据方面展现突出优势。方法学的创新不仅有助于挖掘现有数据的潜在价值,也为未来设计更经济的实验方案(减少样本量或测序深度)提供了可能性。发现的肾脏衰老相关溶质载体蛋白、乳腺癌新型分子分型特征和TMB相关聚类模式,为相应领域的机制研究和临床转化提供了重要线索。随着多组学技术在精准医疗中的广泛应用,kPPA-CART有望成为生物标志物发现和疾病分型研究的有力工具。
生物通微信公众号
知名企业招聘