基于马修斯相关系数的递归集成特征选择方法在高维小样本数据中的特征排序研究

【字体: 时间:2025年10月26日 来源:Machine Learning with Applications 4.9

编辑推荐:

  本文推荐介绍了一种针对高维小样本(HDLSS)组学数据中类别不平衡和可重复性挑战的解决方案。研究人员开发了MCC-REFS方法,将马修斯相关系数(MCC)作为特征选择指标集成到递归集成特征选择(REFS)框架中。该方法利用八种机器学习分类器,无需预定义特征数量或复杂超参数调优。在合成和真实数据集上的测试表明,MCC-REFS能选择更紧凑、信息量更大的特征集,获得更高或相当的分类性能,尤其在TCGA多标签乳腺癌数据集中表现出色。该研究为基于组学的诊断和预后应用提供了稳健、可扩展的特征选择工具。

  
在当今生命科学领域,高通量测序技术的飞速发展带来了海量的组学数据,例如基因组学、蛋白质组学和代谢组学数据。这些数据为精准医疗和疾病机理研究提供了前所未有的机遇,尤其是在生物标志物的发现方面。一个可靠的生物标志物可以作为疾病诊断、区分、进展监测、严重程度评估以及治疗反应预测的关键指标。然而,机遇与挑战并存。组学数据通常呈现出“高维度、小样本”(High-Dimensional, Low-Sample-Size, HDLSS)的典型特征,即特征数量(如基因、蛋白质)远远超过样本数量。这种数据特性带来了诸多挑战,包括所谓的“维度灾难”,它会导致模型性能下降、计算需求激增,并且使得任何预测或分类模型都存在根本性的欠定问题。此外,HDLSS数据集常常受到类别不平衡问题的困扰,例如在疾病与健康对照的研究中,健康样本可能远多于疾病样本。传统的机器学习模型在类别不平衡数据上容易偏向多数类,使用准确率(Accuracy)作为评估指标可能会产生误导性结果(例如,90%的样本为健康,模型即使全部预测为健康也能获得90%的准确率,但这对于识别疾病毫无意义)。更棘手的是,不同测量平台、样本类型或患者群体之间的差异,导致了生物标志物研究领域普遍存在的可重复性难题。
为了解决HDLSS数据中由类别不平衡导致的特征选择稳健性问题,并提高生物标志物发现的可靠性,David Rojas-Velazquez、Aletta D. Kraneveld、Alberto Tonda和Alejandro Lopez-Rincon等研究人员在《Machine Learning with Applications》上发表了一项研究,他们对已有的递归集成特征选择(Recursive Ensemble Feature Selection, REFS)方法进行了重要改进。REFS是一种集成特征选择方法,它整合了来自scikit-learn工具箱的八种不同的机器学习分类器,通过集体决策来对特征进行排序和选择,其设计初衷是简化操作,使医学和药理学领域的研究人员无需深厚的机器学习背景也能进行有效的特征选择,且无需手动调整复杂的超参数。然而,标准的REFS使用全局准确率作为选择最优特征集的判别标准,这在类别不平衡的数据集中存在明显缺陷。
本研究的关键创新在于,他们用马修斯相关系数(Matthews Correlation Coefficient, MCC)取代了准确率,开发了名为MCC-REFS的新方法。MCC是一种更为稳健的统计指标,它考虑了分类混淆矩阵中的所有四个类别(真阳性、真阴性、假阳性、假阴性),其值域在-1到+1之间,+1表示完美分类,0表示与随机预测相同,-1表示完全错误分类。因此,MCC在处理类别不平衡数据时能提供更平衡、更可靠的性能评估。
为开展此项研究,作者们主要应用了几项关键技术方法。核心是MCC-REFS算法本身,它在一个集成框架内使用了八种机器学习分类器(包括随机森林、梯度提升等)进行特征排序。研究采用了嵌套的10折交叉验证方案来防止过拟合并产生稳健结果。数据预处理包括对连续变量和分类变量的缺失值进行填补,并进行z-score标准化。评估阶段则使用不属于集成框架的独立分类器——多层感知器(Multilayer Perceptron, MLP)来验证所选特征集的性能,以确保结果的客观性。研究所用的数据集包括用于方法比较的合成“Madelon”数据集,以及来自公共数据库(如TCGA、GEO等)的真实世界mRNA数据集和乳腺癌多组学数据集,用于与现有先进方法(如GRACES、DNP、GCNN)进行性能对比。
研究结果
3.1. REFS与MCC-REFS的比较
研究人员首先在合成数据集和真实世界不平衡数据集上比较了REFS和MCC-REFS的性能。
  • 实验1(Dataset 0):在一个包含100个样本、100个特征(其中5个为信息特征)的合成数据集上,REFS和MCC-REFS均选择了包含5个信息特征在内的16个特征集,使用MLP验证的AUC-ROC均为0.9000,表现相当。
  • 实验2(Dataset 1):在一个更具挑战性的合成数据集(100样本,1000特征,5个信息特征)上,MCC-REFS的优势开始显现。REFS选择了105个特征,而MCC-REFS仅用42个特征就达到了相同的AUC-ROC(0.9900),且在所有10次运行中均成功识别出全部5个信息特征,显示了其选择更紧凑特征集的能力。
  • 实验3(Dataset 2,乳腺癌肿瘤数据集):在一个高度不平衡的真实世界多组学数据集(705样本,1936特征,生存vs致命结局)上,MCC-REFS的表现更加稳定,其选择特征的过程曲线比REFS更平滑。最终,MCC-REFS仅用132个特征就达到了0.7300的AUC-ROC,而REFS使用了261个特征,AUC-ROC为0.7100。这表明MCC-REFS在处理高度不平衡的真实数据时更具优势。
3.2. 二分类问题的比较
研究人员将MCC-REFS与近期提出的特征选择方法GRACES和DNP在三个真实的二分类mRNA数据集上进行了比较。
  • 实验4(Colon数据集):MCC-REFS选出了12个特征。使用MLP在独立测试集上评估20次,平均AUC-ROC达到0.7900,优于GRACES(0.7591)和DNP(0.7474)。
  • 实验5(SMK_CAN_187数据集):MCC-REFS选出了33个特征,MLP评估的平均AUC-ROC为0.6800,高于GRACES(0.6644)和DNP(0.6454)。
  • 实验6(ALLAML数据集):MCC-REFS选出了12个特征,MLP评估的平均AUC-ROC高达0.9500,显著优于GRACES(0.9025)和DNP(0.8173)。
    这些结果表明,MCC-REFS在多个真实世界二分类任务中,能够自动确定最优特征数量,并取得竞争性甚至更优的分类性能。
3.3. 多标签分类的比较
  • 实验7(TCGA乳腺癌亚型数据集):为了评估MCC-REFS在多标签分类(将样本分为Luminal A, Luminal B, Basal-like, HER2-enriched, Normal-like五种亚型)中的表现,研究人员将其与图卷积神经网络(GCNN)进行了比较。MCC-REFS从20,531个基因中自动选出了327个基因。使用MLP分类器进行验证后,MCC-REFS达到了0.9602的准确率,超过了GCNN方法报告的0.9133。混淆矩阵也显示其分类效果良好。
结论与讨论
本研究成功地将马修斯相关系数(MCC)集成到递归集成特征选择(REFS)框架中,形成了MCC-REFS方法。通过系统性的实验验证,MCC-REFS在合成和真实世界的HDLSS数据集上,尤其是在存在类别不平衡的情况下,展现出了优于或相当于原REFS方法以及当前一些先进特征选择方法(如GRACES、DNP、GCNN)的性能。其核心优势在于:1)使用MCC作为判别标准,对类别不平衡数据更稳健;2)能够自动确定最优特征数量,无需用户预设,避免了主观性;3)作为一个“开箱即用”的工具,无需复杂的超参数调优,易于非机器学习专家使用;4)通过使用独立于集成框架的分类器进行验证,确保了结果的客观性和可靠性。
该研究的重要意义在于为生物标志物发现,特别是在高维、小样本且常伴有类别不平衡的组学数据(如mRNA、miRNA、甲基化、微生物组等)分析中,提供了一个强大、稳健且用户友好的特征选择工具。MCC-REFS有潜力提高基于组学的诊断和预后模型的准确性和可重复性,从而推动精准医疗的发展。未来,研究人员计划在更广泛的组学数据集上进一步验证MCC-REFS的普适性和适应性,特别是在探索其在不同不平衡程度下的行为特征方面。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号