
-
生物通官微
陪你抓住生命科技
跳动的脉搏
开放MLOmics:面向机器学习的癌症多组学标准化数据库构建与应用
【字体: 大 中 小 】 时间:2025年05月31日 来源:Scientific Data 5.8
编辑推荐:
为解决癌症多组学数据分散、预处理复杂导致机器学习模型开发效率低下的问题,研究团队构建了MLOmics数据库,整合TCGA中32种癌症的8,314例患者样本,涵盖mRNA、miRNA、甲基化和CNV四类组学数据,并提供三种特征版本(Original/Aligned/Top)及20项基准任务。该研究通过统一预处理流程和跨组学对齐技术,显著降低了非专业用户的使用门槛,并验证了深度学习模型(如Subtype-GAN、XOmiVAE)在分类(F1-score提升15%)、聚类(NMI>0.7)和缺失值填补(MSE降低30%)中的优越性,为癌症精准医疗提供了标准化数据基础设施。
癌症研究正经历一场由多组学技术驱动的革命,但海量的基因组、转录组和表观遗传数据却像散落的拼图,难以被机器学习模型直接利用。现有数据库如TCGA和LinkedOmics虽资源丰富,但数据分散在不同平台,需要繁琐的样本对齐、特征筛选和缺失值处理——这些"脏活累活"消耗了研究者80%的精力,更成为跨学科研究的"路障"。更棘手的是,不同团队使用异构数据处理流程,导致模型性能比较如同"鸡同鸭讲"。
针对这一痛点,日本京都大学、大阪大学和美国伊利诺伊大学的研究团队在《Scientific Data》发表了MLOmics数据库。这项研究通过开发智能数据管道,将TCGA中32种癌症的8,314例样本标准化为"即插即用"格式,涵盖mRNA表达、microRNA、DNA甲基化和拷贝数变异(CNV)四组学数据。研究团队创新性地提供三种特征版本:保留原始数据的Original版、跨癌症对齐基因集的Aligned版,以及通过ANOVA筛选的Top版(p<0.05且经Benjamini-Hochberg校正)。实验证明,基于该数据库的深度学习模型XOmiVAE在癌症亚型分类中F1-score达0.92,比传统SVM提升23%;而生成对抗网络Subtype-GAN的聚类结果与金标准标签的NMI指数高达0.81。
关键技术包括:(1)使用edgeR将RSEM值转为FPKM标准化转录组数据;(2)通过GAIA识别复发CNV区域;(3)采用limma进行甲基化数据中位归一化;(4)构建三层数据结构(任务-癌症-特征版本);(5)整合STRING和KEGG数据库实现生物网络分析。
数据收集与预处理
团队从TCGA-GDC获取原始数据后,建立自动化流程处理各組学:转录组数据经log转换和零值过滤(>10%缺失剔除);CNV数据通过BiomaRt注释基因组区域;甲基化数据聚焦TSS上下游550bp区域,选择正常组织低甲基化启动子。
数据集构建
创新性设计三类特征:Original保留全部基因;Aligned取32种癌症共有的17,642个基因;Top版通过多类ANOVA筛选1,000个差异显著基因(FDR<0.05),所有版本均进行z-score标准化。
基准任务验证
在20项任务中,深度学习展现显著优势:在BRCA亚型分类中,DCAP模型的precision达0.89;聚类任务中,MCluster-VAEs的轮廓系数(SIL)比传统SNF高40%;数据填补方面,Spectral方法在30%缺失率下MSE仅0.12,优于GAIN的0.21。
技术验证
生存分析显示XOmiVAE分组的患者5年生存率差异显著(log-rank p=2×10-5),KEGG通路分析揭示聚类特异性的代谢重编程特征,如KIRC亚型1富集缺氧诱导因子通路(p<0.001)。
这项研究的意义在于:首次提供"端到端"解决方案,将平均模型开发周期从数月缩短至数天;统一的评估框架使不同研究可比性提升300%;通过内置STRING网络分析模块,用户可一键验证基因模块功能。正如通讯作者Zheng Chen强调:"MLOmics如同组学数据的‘变形金刚’,让研究者从数据泥潭中解放,专注于科学发现本身。"数据库已开源(CC-BY-4.0),其模块化设计支持持续扩展,未来计划纳入单细胞和空间转录组数据。
生物通微信公众号
知名企业招聘