《Computation》:mDA: Evolutionary Machine Learning Algorithm for Feature Selection in Medical Domain
编辑推荐:
本文提出了一种改进的蜻蜓算法(mDA),通过融合进化种群动力学(EPD)与蜻蜓算法(DA)的优势,为高维医学数据的特征选择(FS)提供了一种新颖的进化机器学习解决方案。该算法在七个不同的医学数据集上进行了验证,结果表明mDA在提高分类精度、显著减少特征数量以及获得更低平均适应度得分方面均优于传统PSO、GA、GWO等算法,展现出其在处理复杂医疗数据、辅助疾病诊断方面的巨大潜力。
摘要
医疗数据的快速增长,以其复杂的高维属性为特征,为医疗保健分析带来了众多充满希望的机遇和巨大的挑战。采用有效的特征选择技术对于充分利用此类数据的潜力至关重要。本研究提出了一种名为mDA的改进算法,它是进化种群动力学(EPD)与蜻蜓算法(DA)的混合算法。该方法结合了EPD的动态种群建模能力和DA的自适应搜索技术,为医学数据分析提供了一种鲁棒的进化机器学习方法。通过整合EPD和DA的优势,所提出的mDA显著提高了分类精度,减少了特征数量,并获得了更低的平均适应度得分。在七个不同的医学数据集上与其他成熟算法进行的对比实验证实了mDA的优越性能,确立了其在检查复杂医学数据方面的价值。
1. 引言
医疗技术的快速发展和电子健康记录的广泛使用产生了海量的医疗数据。这些高维数据具有通过促进更精确的诊断、定制化治疗和预测分析来改变医疗保健的潜力。然而,这些数据的大量性和复杂性带来了巨大挑战,特别是在提取有意义的见解方面。一个主要挑战是存在不相关或冗余的特征,这些特征可能会阻碍机器学习模型的有效性,导致过拟合和泛化能力下降。
近几十年来,元启发式和进化算法已被证明在解决各种优化问题中非常有效。蜻蜓算法(DA)是一种受蜻蜓行为启发的现代元启发式算法,作为一种近年来成功的算法,能够超越文献中其他成熟的优化器。它已被应用于各种现实世界的应用中。最近的研究还强调了智能和语言感知AI系统在医疗保健和社交媒体分析中日益增长的作用,展示了机器学习和自然语言处理在阿拉伯语和多语言环境中的有效应用。
最近,研究人员提出了DA的二进制版本,称为BDA,它利用传递函数(TF)将连续搜索空间转换为离散空间。BDA有效性的初步评估在各种特征选择挑战上进行,结果表明该方法性能令人满意。
EPD算子的显著优势促使我们将其与新开发的DA结合,以评估其在FS问题上的效能。在本研究中,我们通过选择前三个解决方案以及一个随机生成的解决方案来重新定位种群中下半部分的解。这种策略允许适应度较低的解影响种群结构。综合结果和广泛比较表明,EPD显著提升了DA的性能,增强了所提出方法超越其他优化器并实现具有更好收敛特性的更优解的能力。本研究提出了一种基于EPD增强的DA优化器,旨在提高基础DA在FS任务上的性能。
2. 相关工作
在我们的文献综述中,我们采用了系统的研究方法来确定和评估相关研究。我们在主要的科学数据库中进行搜索,利用特定的关键词。我们的选择标准针对那些提出、检查或实现混合元启发式算法的研究,特别关注集成EPD和DA或类似进化策略的方法。这种方法保证了现有文献的全面和有针对性的回顾,使我们能够评估当前方法的理论和实践贡献,并明确定义所提出mDA算法的创新之处。
大量研究尝试应用DA或增强其解决实际挑战的有效性。2017年,研究人员提出了一种结合PSO原理的基于记忆的混合DA,用于全局优化问题。此外,研究人员开发了一种用于全局优化的具有精英反向学习的改进DA。
DA在医疗保健领域内应用于特征选择。研究旨在将乳腺癌肿瘤分类为良性或恶性。实施蜻蜓算法可以识别出经过筛选的特征子集,从而提高分类模型的精度。该算法通过系统识别最显著的特征并同时丢弃冗余特征来增强特征选择方法。这种方法论框架提高了医学领域的诊断准确性。DA被应用于机器学习领域的特征选择;该研究确实将这种算法应用于与慢性肾病分类相关的数据集,从而证明了分类精度的显著提高。尽管主要重点放在改善分类结果上,但蜻蜓算法在特征选择方面的功效可能在疾病诊断或预后等医疗应用中带来优势。后续研究可以探讨该算法在分析医疗数据以推进医疗环境中的预测模型方面的潜力。在研究中,DA被用于医学图像配准。它与其他仿生算法进行了比较评估。模拟结果表明,蜻蜓算法产生了更高质量的图像配准结果,尽管收敛时间较长。配准质量与计算持续时间之间的这种矛盾在选择用于医疗应用的算法时至关重要。因此,DA在医学图像配准任务领域显示出巨大的潜力,尽管计算时间增加,但仍能提供高质量的结果。在热成像图像分割用于乳腺疾病早期诊断中,模拟蜻蜓的群体行为,该算法平衡探索和利用阶段,以计算图像分割的最佳阈值,旨在为临床医生提供可靠的方法来有效分析热成像图像,协助乳腺癌的早期检测。
基于这些DA算法早期的医学应用,最近的文献展示了向混合进化-深度学习范式的明显转变,用于FS和具有内在可解释性机制的基于Transformer的架构。一篇全面的文献综述提炼了进化特征选择的现状,重点关注注意力、自适应种群建模和多目标优化的集成方法。这些方法对构建所提出的mDA算法产生了重大影响。类似地,观察到关于深度注意力网络和视觉Transformer模型的并行文献,用于集成到医疗数据中。这些模型利用注意力池化、分层融合和表示机制,固有地产生符合特征选择标准的显著特征。这些Transformer模型自然融入的可解释性使其更容易验证其临床用途。在方法论上,最近在领域感知的Transformer框架方面取得了突破,这些框架将基于物理和生物学的先验知识纳入其优化方法。这些模型提供了增强的语义连贯性,并且可以与传统的包装器FS方法一起概念化,这些方法依赖领域信息来指导和识别显著特征的过程。这继续加强了联合进化搜索方法与知识通知架构的协同作用,以实现鲁棒性和可解释性。从可视化和可解释性的角度来看,最近的工作在后归因方法(如SHAP和LIME)方面继续激增,以有效地将这些归因方法与FS算法集成,保证这些模型的临床合理性和可解释性。实证分析已验证,以临床医生为中心的解释在临床医生信任度和诊断准确性方面均可以超越标准的SHAP解释,强调了医学AI中可解释性和以用户为中心设计的必要性。互补分析同时主张使用注意力图、梯度归因和基于扰动的验证,以确保所选特征在临床决策支持系统中的相关性。
综上所述,这些最新发展代表了向可解释的、基于领域的和混合特征选择框架的明确范式转变。它们已经建立了一个整合进化搜索、深度表示学习和可解释AI的连贯研究流,这一轨迹直接反映在我们提出的mDA模型的构思和设计中。
3. 预备知识
3.1. 蜻蜓算法(DA)
蜻蜓算法是一种新引入的群体智能算法。该算法模拟了概念化蜻蜓的捕食和迁徙行为。捕食行为,称为静态群体(觅食),涉及蜻蜓在有限区域内以小群飞行以寻找食物源。另一方面,迁徙行为,称为动态群体(迁徙),涉及蜻蜓以更大群体向单一方向飞行,以促进群体的迁徙。
与其他受自然启发的算法类似,DA在两个阶段运行:基于静态群体行为的探索阶段和基于动态群体行为的利用阶段。
五种个体行为用于模拟蜻蜓的群体行动。在方程中,X表示当前搜索代理的位置,Xj表示X搜索代理的第j个邻居,N表示邻域大小:
- •
分离:搜索代理用于与其他附近搜索代理保持距离的策略。其数学表示为方程(1):Si= -∑j=1NX - Xj
- •
对齐:描述单个实体如何调整其速度以与其他附近实体的速度对齐。此动作的数学表示为方程(2):Ai= (∑j=1NVj)/N,其中Vj表示第j个相邻实体的速度。
- •
内聚:表示个体向附近质心移动的倾向,其数学表示为方程(3):Ci= (∑j=1NXj)/N - X
- •
吸引:描述个体向食物源移动的倾向。食物源与第i个解之间吸引力的数学表示由方程(4)给出:Fi= Floc- X,其中Floc表示食物源的位置。
- •
分散:这描述了个体逃离威胁的自然倾向。对手与第i个解之间的分离数学上由方程(5)表示:Ei= Eloc+ X,其中Eloc表示敌人的位置。
在DA中,食物源的适应度和位置旨在根据迄今为止表现最佳的候选(搜索代理)进行修订。此外,对手的适应度和位置应根据最不成功的候选进行调整。这导致向搜索空间内有利区域的收敛和从较不利区域的发散。
根据PSO算法框架,DA使用两个向量更新蜻蜓的位置:步长向量(ΔX),类似于PSO中的速度向量,以及位置向量。步长向量表示蜻蜓移动的方向。步长向量建模为方程(6):ΔXt+1= (sSi+ aAi+ cCi+ fFi+ eEi) + wXt。其中s, w, a, c, f, 和 e 分别表示分离Si、对齐Ai、内聚Ci、向食物源吸引Fi和从敌人分散Ei的权重。这些权重允许DA在优化过程中表现出不同程度的探索和强化。
个体的位置更新如方程(7)所示:Xt+1= Xt+ ΔXt+1,其中t是当前迭代。
DA的伪代码在算法1中给出。该过程始于生成随机初始种群,其中蜻蜓的位置和步长向量被随机分配。在每次迭代期间,算法重复执行以下操作,直到满足停止条件。首先,通过适应度函数评估每个种群成员。其次,修正主要系数。第三,使用方程(1)-(5)更新分离(S)、对齐(A)、内聚(C)、食物源(F)和敌人(E)。最后,根据方程(6)和(7)相应地调整步长向量和位置。最终,返回迄今为止找到的最佳解。
3.2. 二进制蜻蜓算法(BDA)
在二进制优化问题中,搜索空间被建模为超立方体,个体的位置可以通过翻转其位置向量中的一个或多个位来改变。由于原始DA是为连续优化问题设计的,它通过将步长向量添加到当前位置向量来更新个体的位置。然而,这种方法不适用于像特征选择这样的二进制优化问题。如先前研究所示,使用传递函数是将连续算法适应二进制上下文的一种有效且实用的方法。本文利用了S形和V形传递函数。
通常,传递函数用于计算将位置元素更改为0或1的概率,取决于当前迭代(t)中索引为i的搜索代理在索引为d的维度上的步长向量(速度)值作为输入参数。在早期研究中,使用方程(8)的传递函数来计算将连续位置转换为二进制的概率:T(vdi(t)) = | (vdi(t)) / √(1 + (vdi(t))2) |。
从方程(8)得到的结果T(vki(t))随后用于根据方程(9)将位置向量的第i个分量转换为0或1:X(t+1) = { ?Xtif r < T(vki(t)); Xtif r ≥ T(vki(t)) },其中r是[0,1]区间内的随机数。
步长向量表示当前个体的动态,并决定了移动的程度。较小的步长向量值意味着个体正在接近最优解,应该进行微调(利用)。相反,较高的步长向量值表明搜索代理远离最优解,需要进行重大更改(探索)。在使用步长向量确定位置变化概率的二进制算法中,传递函数极大地影响了探索和利用之间的平衡。如果传递函数保持不变,概率计算将在整个优化过程中保持不变。修改传递函数可以增强步长向量对搜索空间探索和利用的位置变化的影响。
3.3. 进化种群动力学(EPD)
进化算法(EAs)是随机搜索方法,其中一组潜在解(种群)被初始化,然后逐渐改进以更好地满足指定目标。某些EA采用变异机制来修改选定的解,而其他EA使用交叉算子。这些算子旨在进化选定的解,这些解通常是最优的解。进化种群动力学(EPD)涉及消除种群中最不优的解,并将它们重新定位在最佳解附近。这种方法基本上基于自组织临界性(SOC)理论,该理论表明种群中的局部改变可以影响整个种群,从而在没有外部组织力量的情况下导致微妙的平衡。遗传算法使用交叉和突变等进化算子合并最佳解。相反,EPD从当前种群中排除最不优的解。受SOC概念启发的两种元启发式方法是使用自组织临界性的进化规划(EPSCO)和极值优化(EO)。EPD是一种简单而有效的机制,可以集成到各种优化器中。它首先从群体中移除最不优的解,随后将这些被移除的解重新定位在顶级搜索代理周围。
4. 方法论
特征选择被提出作为一个二进制优化挑战,将解限制为二进制结果。因此,DA的二进制版本可用于解决这一挑战。在本研究中,一个由0和1组成的向量表示一个FS问题的解,0表示不选择相关特征,1表示选择该特征。解向量的长度对应于原始数据集中特征