编辑推荐:
针对多组学数据癌症分类中数据整合、基因分组及自适应权重构建等挑战,研究人员开展基于多组学数据的癌症亚型分类与基因筛选研究,提出 MLRAR 方法。其在乳腺癌、卵巢癌分类精度上优于多种对比方法,为相关研究提供新路径。
背景:整合多组学数据进行癌症分类可带来互补生物学见解,但面临数据整合、基因分组和自适应权重构建等挑战。目的:解决基于多组学数据的癌症亚型分类及基因筛选难题。方法:提出结合 DNA 甲基化、基因突变和 RNA-seq 信息的自适应正则化多项逻辑回归(MLRAR)方法,采用有效利用多组学信息的数据预处理策略,通过局部最大准团合并(lmQCM)算法进行基因分组,利用生物通路信息评估基因组显著性,并结合突变信息、信息论和甲基化信息评估组内单个基因的重要性。结果:与 MRlasso、MRGL、MSGL、MROGL、AMRSOGL 和 AGLRMR 相比,该方法使乳腺癌亚型分类准确率分别提升 2.6%、2.9%、3.5%、2.3%、2.0% 和 1.8%,在卵巢癌中也分别实现 8.2%、5.0%、6.8%、5.2%、12.7% 和 6.3% 的显著提升。结论:该方法可有效应对数据整合、基因分组和自适应权重构建问题。