基于Copula熵的高效交互式特征选择方法CEFS+及其在基因数据分析中的应用

【字体: 时间:2025年08月18日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对高维数据特征选择(FS)中交互增益捕捉不足的问题,提出基于Copula熵(CE)的CEFS+算法。通过融合特征-标签互信息和最大相关最小冗余策略,结合秩优化技术,在15个实验场景中10次取得最高分类准确率,尤其在BRCA等基因数据集上准确率提升3.7%,为癌症标志物筛选提供新工具。

  

在基因检测成本居高不下的今天,海量基因数据中隐藏着癌症等复杂疾病的密码。然而面对动辄上万的基因维度,传统特征选择方法如同"大海捞针":既难以捕捉基因间的协同效应,又无法平衡特征相关性与冗余度。这导致许多潜在生物标志物被遗漏,犹如拼图丢失关键碎片。更棘手的是,现有算法在计算多元互信息时存在"维度诅咒",而交互增益的量化始终是学界难题。

针对这些挑战,中国科学院的研究团队在《Scientific Reports》发表创新成果。他们巧妙运用Copula熵理论,构建了能捕捉全阶交互作用的CEFS+算法。该研究通过三大技术创新:首先证明多元互信息的可分解性,建立"变量集指向变量的信息=全集信息-变量集信息"的数学关系;其次将Copula熵与互信息理论有机融合,创造性地用Hcs°)-Hcsc°)作为特征选择准则;最后引入NSGA-II的秩优化策略,使算法稳定性提升20%。

关键技术路线包含:1) 基于Copula熵的非参数互信息计算;2) 采用TCGA等公共数据库的6类癌症3480例样本验证;3) 使用RF、SVM和lightGBM三类分类器进行10×10交叉验证;4) 通过ZBTB7C等30个关键基因的拷贝数变异分析验证生物学意义。

【理论创新】

通过严格数学推导证明I(Ωsc°)=I(Ωs°)+MI(Ωs°~c),首次实现多元互信息的可加性分解。如表2所示,当特征fa与fb联合时信息量1.2bit,远超单独特征之和0.8bit,完美诠释交互增益。

【算法优化】

对比实验显示,基础版CEFS在Sonar数据集RF分类中准确率84.9%,而CEFS+提升至84.7%的同时稳定性显著提高。如图4所示,在TUANDROMD数据集上,CEFS+仅需21个特征即达98.5%准确率,较Lasso算法少用22个特征。

【基因分析】

筛选出的30个关键基因中,ZBTB7C在结直肠癌中拷贝数-0.664(如图6),与脂肪酸代谢通路显著相关;PCAT1在乳腺癌中拷贝数0.819,通过调控BRCA2影响同源重组修复。这些发现为图6展示的拷贝数变异模式提供了分子机制解释。

该研究突破性地解决了三个关键问题:一是首次实现交互增益的定量评估,使基因协同效应可计算;二是计算效率提升5倍,万维基因数据处理时间从8小时缩短至1.5小时;三是在BRCA等数据集上平均准确率89.8%,较Lasso提升3.7%。这些进展不仅为生物标志物筛选提供新范式,其创新的Copula熵框架更为金融风控、社交网络分析等高维数据处理开辟新路径。正如讨论部分指出,未来通过整合单细胞测序数据,该算法有望在肿瘤异质性研究中发挥更大价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号