
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于交叉增强型海洋捕食者算法(MPAC)的基因选择方法在癌症微阵列分类中的应用研究
【字体: 大 中 小 】 时间:2025年08月24日 来源:Artificial Intelligence in the Life Sciences 5.4
编辑推荐:
为解决高维微阵列数据中基因选择难题,研究人员提出一种新型混合过滤-包装基因选择策略rMRMR-MPAC。该方法结合最小冗余最大相关性(rMRMR)过滤器和改进的海洋捕食者算法(MPA)与交叉算子(CO)的混合优化算法,在9个基准数据集测试中显著提高了癌症分类准确率,同时减少了特征基因数量,为癌症生物标志物发现提供了高效计算工具。
癌症诊断领域面临一个关键挑战:如何从海量的基因表达数据中准确识别出与癌症相关的关键生物标志物。微阵列技术虽然能同时检测成千上万个基因的表达水平,但由此产生的高维数据包含着大量噪声和无关基因,给癌症分类带来了巨大困难。传统方法往往难以在基因选择的数量和分类准确性之间取得理想平衡,亟需开发更高效的算法来解决这一难题。
约旦大学信息技术系的Sharif Naser Makhadmeh团队在《Artificial Intelligence in the Life Sciences》发表研究,提出了一种创新的混合优化算法MPAC(Marine Predators Algorithm with Crossover)。该方法巧妙结合了最小冗余最大相关性(rMRMR)过滤器和改进的海洋捕食者算法(MPA),通过引入交叉算子(CO)显著提升了算法的搜索能力,能够从复杂的微阵列数据中筛选出最具判别性的基因组合。
研究人员采用了三个关键技术方法:首先使用rMRMR过滤器进行初步基因筛选;然后开发MPAC混合算法,将MPA的全局搜索能力与CO的局部优化能力相结合;最后采用k-近邻(KNN)分类器评估所选基因子集的分类性能。研究测试了包括Leukemia、Colon、Lung Cancer等9个公开微阵列数据集,与多种现有算法进行了系统比较。
在"2. Research background"部分,研究详细阐述了MPA算法的三个优化阶段:高速度比阶段、单位速度比阶段和低速度比阶段,分别模拟不同捕食场景。通过引入交叉算子,算法增强了局部搜索能力,采用单点交叉、两点交叉和均匀交叉三种策略提升种群多样性。
"3. Methodology"部分展示了完整的研究框架。过滤阶段采用rMRMR方法评估基因重要性,包装阶段则使用MPAC进行优化。解决方案采用二进制编码表示基因选择状态,目标函数平衡分类准确率(α=0.8)和基因数量(β=0.2)。MPAC通过五个关键步骤实现优化:初始化、种群评估、MPA更新、交叉操作和终止判断。
"4. Experimental setup and results"部分呈现了详实的实验结果。在CNS数据集上,MPAC获得95%的分类准确率,仅选择7.63个基因;在Leukemia数据集实现100%准确率,仅需3个基因。与AOAC、BATC等其他混合算法相比,MPAC在多数数据集上表现出更优的F1值和马修斯相关系数(MCC)。特别是与12种现有方法比较时,MPAC在SRBCT、Leukemia等数据集上均达到100%分类准确率,同时保持最少的基因选择数量。
研究结论部分强调,MPAC算法通过创新的混合策略,有效解决了高维基因数据中的特征选择难题。其优势主要体现在三个方面:1) rMRMR预处理显著降低了搜索空间维度;2) MPA与CO的结合实现了全局和局部搜索的平衡;3) 算法在保持高分类性能的同时极大减少了所需基因数量。这些特点使MPAC特别适合临床应用,为开发更精准的癌症诊断系统提供了新思路。
这项研究的科学价值在于:首先,提出的混合优化框架为处理高维生物数据提供了新方法;其次,详实的实验验证证明了算法在真实数据集上的优越性;最后,研究结果为癌症早期诊断的生物标志物发现提供了可靠的计算工具。未来工作可进一步探索MPAC在其他生物信息学问题中的应用,并尝试结合深度学习等先进分类器提升性能。
生物通微信公众号
知名企业招聘