《Big Data Mining and Analytics》:CPSORCL: A Cooperative Particle Swarm Optimization Method with Random Contrastive Learning for Interactive Feature Selection
【字体:
大中小
】
时间:2025年12月19日来源:Big Data Mining and Analytics 6.2
在遗传学研究中,复杂疾病如年龄相关性黄斑变性(AMD)的发病机制往往涉及多个基因位点的协同作用。全基因组关联研究(GWAS)作为探索基因-表型关联的重要工具,虽已鉴定出大量疾病相关单核苷酸多态性(SNP),但传统方法主要关注单个SNP的独立效应,难以捕捉SNP间非线性的交互作用(epistasis),这导致遗传力缺失(missing heritability)问题长期悬而未决。尤其当交互作用阶数升高时,搜索空间呈指数级增长,使得检测工作面临巨大计算挑战。现有SNP交互作用检测方法主要包括穷举搜索、随机搜索、机器学习和群体智能优化四类。穷举法虽精度高但计算成本巨大;随机搜索易遗漏关键SNP;机器学习方法可解释性差;而群体智能算法如粒子群优化(PSO)和蚁群优化(ACO)虽显示出潜力,但在处理大规模数据和高阶交互时性能显著下降。这些局限性促使研究人员探索更高效的检测策略。为解决上述问题,曲阜师范大学李亚晗等人开发了CPSORCL方法,该工作发表于《Big Data Mining and Analytics》。该方法通过三大创新策略提升检测性能:自适应随机对比学习策略动态调整粒子群拓扑结构,促进粒子间竞争合作;特征权重引导翻转策略基于互信息(MI)量化SNP与表型关联度,平衡全局探索与局部搜索;深度搜索策略结合禁忌表机制,系统挖掘多阶SNP交互作用。关键技术方法包括:基于互信息的目标函数评估SNP交互作用强度;自适应随机对比学习动态构建粒子邻域拓扑;特征权重引导的位点翻转概率调整;以及针对高权重SNP候选集的深度搜索策略。实验采用模拟数据集(包含16种二、三阶交互模型)和真实AMD数据集(含103611个SNP和146个样本),以检测效能(Power)和运行时间(Time)作为评价指标。