
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MOTL:基于迁移学习的多组学矩阵分解方法增强小样本数据分析能力
【字体: 大 中 小 】 时间:2025年07月26日 来源:Genome Biology 10.1
编辑推荐:
研究人员针对小样本多组学数据矩阵分解效果受限的问题,开发了基于迁移学习的MOTL框架。该研究通过整合MOFA模型与迁移学习技术,显著提升了TCGA癌症数据和胶质母细胞瘤样本的因子分解效果,成功识别出与癌症状态和亚型相关的潜在生物学信号,为罕见病研究提供了新的分析工具。
在生物医学研究领域,多组学数据整合分析已成为揭示复杂疾病机制的重要途径。然而,当面对珍贵的小样本数据时,传统的矩阵分解方法往往捉襟见肘。特别是在罕见病研究中,样本获取困难且成本高昂,如何从有限的样本中提取有价值的生物学信息成为亟待解决的科学难题。
艾克斯马赛大学(Aix Marseille Univ)、法国国家健康与医学研究院(INSERM)等机构的研究团队在《Genome Biology》发表的研究提出创新解决方案。研究人员开发了MOTL(Multi-Omics Transfer Learning)框架,通过迁移学习技术将大规模异质学习数据集的知识迁移到小样本目标数据集的分析中,显著提升了多组学矩阵分解的效果。这项研究不仅建立了新的分析流程,更为罕见病研究提供了有力工具。
研究采用三项关键技术方法:1)基于变分贝叶斯推断的MOFA模型进行学习数据集分解;2)开发MOTL算法实现特征权重和精度参数的迁移;3)设计模拟数据和TCGA真实数据双重验证方案。研究使用来自TCGA的32种癌症类型、7866个样本作为学习数据集,胶质母细胞瘤患者来源干细胞培养物作为目标数据集。
方法学部分展示了MOTL的创新设计。该方法在MOFA模型基础上引入迁移学习机制,通过固定从学习数据集获得的特征权重W(m)、截距a(m)和精度参数τ(m),专注于推断目标数据集的样本得分矩阵Z。研究特别设计了处理不同类型组学数据的策略:对连续型数据采用高斯似然,计数数据采用泊松似然,二元数据采用伯努利似然。
模拟数据评估验证了MOTL的优越性。在20-30个真实因子的模拟数据集中,MOTL识别差异活性因子的F1分数比直接MOFA分解平均提高0.21(p<0.01)。值得注意的是,即使在80%的特征权重被置换的情况下,MOTL仍保持良好性能,显示出对潜在空间重叠度下降的鲁棒性。
TCGA数据分析进一步证实了方法的有效性。在包含5个样本的急性髓系白血病(LAML)、胰腺腺癌(PAAD)和皮肤黑色素瘤(SKCM)目标数据集中,MOTL获得的因子与真实因子在得分矩阵上的相关性(FM_Z)平均提高0.20(p<0.01)。基因集富集分析揭示了与癌症类型特异性相关的通路,如B细胞受体信号、细胞因子-细胞因子受体相互作用等。
胶质母细胞瘤案例展示了MOTL的临床应用价值。在仅含4个正常样本和9个肿瘤样本的数据集中,MOTL识别出19个差异活性因子,而直接MOFA仅发现1个。这些因子与免疫/炎症过程、脂质代谢等通路显著相关,并能更好地区分癌症亚型(经典型CL、前神经型PN、间充质型MS)。
研究结论部分强调了MOTL的多重意义。该方法突破了小样本多组学数据分析的技术瓶颈,通过迁移学习实现了知识的有效迁移。特别值得注意的是,即使学习数据集中不包含目标疾病类型(如胶质母细胞瘤),MOTL仍能识别有生物学意义的模式。研究者提供了开源R实现,并建立了可重复使用的评估流程,为罕见病研究提供了新的分析范式。这项研究将促进多组学数据在精准医学中的应用,特别是对那些样本难以获取的疾病研究具有重要价值。
生物通微信公众号
知名企业招聘