《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》:A Comprehensive Review of Optimization Techniques for Healthcare Using Cancer Datasets
编辑推荐:
本研究对应用于医疗保健问题的元启发式(metaheuristic)优化技术进行了系统综述,使用了癌症数据集。研究人员通过结构化搜索近期发表的同行评审文献,重点关注五个主要应用领域:特征选择(feature selection)、分类(classificatio
本研究对应用于医疗保健问题的元启发式(metaheuristic)优化技术进行了系统综述,使用了癌症数据集。研究人员通过结构化搜索近期发表的同行评审文献,重点关注五个主要应用领域:特征选择(feature selection)、分类(classification)、图像分割(image segmentation)、超参数调优(hyperparameter tuning)和早期检测(early detection)。针对每项合格研究,提供了优化策略、数据集特征、数据模态(data modality)、学习模型、验证协议(validation protocol)以及报告结果。研究人员将综述的工作组织为原始算法、改进算法和混合算法的分类体系,并进行了描述性分析以评估算法流行度和数据集利用情况。研究结果强调,特征选择仍是最广泛探索的任务,而超参数调优和图像分割近年来受到越来越多的关注。遗传算法(GA)、粒子群优化(PSO)、鲸鱼优化(WOA)和灰狼优化(GWO)成为最常用的方法,特别是在与深度学习模型结合用于复杂成像任务时。尽管这些方法一贯优于非优化或网格搜索基线,但在外部验证(external validation)、类别不平衡(class imbalance)管理、可重复性(reproducibility)以及计算成本(computational cost)的透明报告方面仍存在挑战。总体而言,本综述为当前癌症数据分析中优化的实践与趋势提供了综合梳理。
论文主体部分总结
**1 引言(Introduction)**
医疗保健领域日益依赖数据驱动技术以满足精准诊断、个性化治疗和资源高效服务的需求。癌症作为最复杂和危及生命的健康挑战之一,其数据集涵盖临床记录、生物医学信号、病理图像、基因表达谱、放射学扫描和多组学(multi-omics)数据。这些数据集通常具有高维、噪声和类别不平衡特性,使传统分析方法复杂化。研究人员越来越多地采用机器学习和人工智能框架,但模型性能高度依赖于数据预处理、特征选择、参数调整和模型结构等任务,这些任务本质上涉及复杂优化问题。元启发式(metaheuristic)优化算法作为受自然现象启发的随机搜索方法,能够探索广阔解空间并跳出局部最优,适用于癌症数据分析中常见的复杂、多模态和非确定性多项式时间困难(NP-hard)问题。常用算法包括遗传算法(GA)、粒子群优化(PSO)、差分进化(DE)、蚁群优化(ACO)、人工蜂群(ABC)、模拟退火(SA)及其混合和自适应变体。元启发式算法已成功应用于特征子集选择、超参数调优、患者亚型聚类和神经网络训练等任务。开放获取癌症数据库如癌症基因组图谱(TCGA)、监测流行病学和最终结果(SEER)以及加州大学欧文分校(UCI)的乳腺癌数据集促进了模型开发和基准测试,但算法选择、计算复杂性和泛化能力等挑战仍阻碍临床部署。
**2 癌症背景概念(Background Concepts of Cancer)**
2.1 癌症概述:癌症是由异常细胞不受调控生长和分裂定义的一组疾病,其转化通常由影响致癌基因、抑癌基因和脱氧核糖核酸(DNA)修复途径的遗传和表观遗传改变驱动。超过一百种不同类型的癌症已被识别,常见类型包括肺癌、乳腺癌、前列腺癌、结直肠癌、肝癌和宫颈癌。肿瘤-淋巴结-转移(TNM)分类等标准化分期系统用于描述疾病扩散程度,指导治疗选择。全球癌症负担持续增长,2025年全球预计新发癌症病例3500万例,凸显早期检测和个性化治疗的需求。
2.2 癌症数据集:计算模型的进步得益于高质量、大规模数据集的可用性。TCGA提供超过30种癌症类型的多组学数据;SEER数据库包含纵向流行病学数据;基因表达综合库(GEO)和ArrayExpress存档微阵列和下一代测序数据;癌症影像档案(TCIA)提供放射学和病理学图像;UCI机器学习库提供威斯康星乳腺癌数据集等经典数据集。癌症数据集通常表现出高维性、类别不平衡、异质性和缺失值等困难特性,需要稳健的预处理和高级优化方法。
2.3 癌症数据分析中的挑战:高维性导致“维度灾难”,增加过拟合风险;类别不平衡使模型偏向多数类;缺失和噪声数据需要严格的预处理;癌症的异质性在分子水平上差异显著;黑箱模型缺乏可解释性;多模态数据整合仍是一个开放问题。
**3 癌症方法的最新变体(Recent Variants of Cancer Methods)**
3.1 原始优化方法:多项研究将元启发式算法与深度学习结合用于癌症检测。例如,利用磷虾群优化(Krill Herd Optimization)微调深度卷积神经网络(CNN)用于乳腺摄影图像分类;虎鲸捕食优化算法(OPOA)与ResNet-50结合;布谷鸟搜索算法(CSA)和鹰优化算法(EOA)优化CNN处理超声图像;黑猩猩优化算法(COA)与二型直觉模糊C均值(T2FCM)聚类用于图像分割;教学优化算法(TLBO)优化极限学习机(ELM)用于黑色素瘤检测;粒子群优化(PSO)和遗传算法(GA)用于控制癌症治疗;矮猫鼬优化(DMO)用于喉癌超参数调优;阿基米德优化算法(AOA)用于前列腺癌分类;瞪羚优化算法(GaOA)用于宫颈癌检测;平衡优化算法(EOA)用于前列腺癌图像分类;埃博拉优化搜索算法(EOSA)用于肺癌分类;鲸鱼优化算法(WOA)用于CNN超参数调优;人工蜂群(ABC)用于结直肠息肉检测;共生生物搜索(SOS)用于乳腺癌分类;鹰优化算法(DOP)用于基因特征选择;天鹰优化算法(Aquila Optimization Algorithm)用于喉癌检测;社会蜘蛛优化(SSO)用于乳腺癌分期;灰狼优化(GWO)与K均值混合用于图像分割;GA用于随机森林超参数调优;蜉蝣优化算法(Mayfly Optimization Algorithm)用于微小核糖核酸(miRNA)分类;世界杯优化算法用于乳腺摄影图像阈值处理;GA用于UNet模型压缩以部署于物联网(IoT)设备;GA用于脑癌分类;蚱蜢优化算法(Grasshopper Optimization Algorithm)用于肾癌超参数调优;多目标GA用于基因共表达网络模块检测;哈里斯鹰优化(HHO)用于基因选择;火烈鸟搜索优化算法(FSOA)用于肺癌分类;蝠鲼觅食优化算法(MRFOA)用于肺癌分类;PSO用于特征选择结合人工神经网络(ANN)检测癌症相关miRNA;GA与ANN混合用于乳腺癌分类;白冠鸡优化算法(Coot Optimization Algorithm)用于胰腺癌诊断;鹈鹕优化算法(Pelican Optimization Algorithm)用于肺癌分类;多目标平衡优化器用于化疗剂量优化;自适应更新语言教育优化(AU-LEO)算法用于乳腺癌分割分类;WOA改进CNN用于乳腺癌检测;PSO和GA用于特征选择结合支持向量机(SVM)用于皮肤癌分类;核反应优化(NRO)用于基因选择;笑翠鸟优化算法(Kookaburra Optimization Algorithm)用于结肠癌分类;GA和化学反应优化(Chemical Reaction Optimization)用于特征选择;天鹰优化器(Aquila Optimizer)用于肺部结节分类;蝙蝠优化算法(Bat Optimization Algorithm)用于黑色素瘤分割;GWO用于微调Adam优化器超参数;PSO结合径向基函数(RBF)神经网络用于癌症分类;蒲公英优化算法(Dandelion Optimizer Algorithm)用于喉癌检测;PSO结合DenseNet和双向长短期记忆(Bi-LSTM)用于乳腺癌检测;果蝇优化算法(Fruit Fly Optimization Algorithm)用于有丝分裂核分类;光束角优化算法(Beam Angle Optimization)用于调强放射治疗(IMRT)计划;乌鸦搜索算法(Crow Search Algorithm)用于脑癌CT分析;新权重更新优化算法用于训练ANN;WOA结合XGBoost用于特征选择;捕鱼优化算法(Catch Fish Optimization Algorithm)用于食管癌CT图像多阈值分割;沙猫优化算法(Sand Cat Optimization Algorithm)用于胃癌分类;亨利气体溶解度优化(HGSO)用于皮肤癌诊断。
3.2 改进优化方法:包括二进制优化算法(如二进制狐狸优化算法(FOX)、二进制哈里斯鹰优化(BHHO)、二进制灰狼优化(BGWO)、二进制社交滑雪者驱动(bSSD)、改进人工兔优化(COARO)、二进制白鲸优化(BBWORCPS)、二进制灰狼优化算法(BGWOA))、自适应优化算法(如滑窗黑猩猩优化(SWChOA)、自适应海狮优化(SA-SLnO)、自适应惯性权重PSO(SIW-APSO)、自适应增强多样化徒步优化(AEDHOA))、对立学习优化算法(如对立黑猩猩优化(OChOA)、肝脏癌算法(LCA)、透镜对立学习非洲秃鹫优化(LOBL-AVOA)、改进金豺优化(IGJO)、增强蚁群优化(EACO)、增强鹈鹕优化(EPOA)、增强成吉思汗鲨优化(EGKSO)、Lévy飞行和布朗运动及随机对立学习改进浣熊优化(LFR-COA)、改进蒲公英优化算法(DOA))、混沌优化算法(如COBHCOOT、分层学习混沌小龙虾优化(HLCCOA)、混沌沙猫优化结合Remora优化、母亲优化算法(MOA))以及变异优化算法(如WDRIME、增强WOA、ACG-EA、突变原子搜索优化(MASO)、DRPSO多阈值分割)。其他改进方法包括分数阶GaOA、量子SVM结合精英非支配排序GA(ENSGA)、改进AOA、离散平衡优化算法(DEOA)、改进Jaya优化(EJOA)、信息增益改进蝙蝠算法(InfoGain-MBA)、改进熵WOA(MEWOA)、单纯形法SSO(SMSSO)、改进算术优化算法(IAOA)、改进脑风暴优化(BSO)、增强猫群优化(ECSO)、改进缎蓝园丁鸟优化(SBOA)、改进PSO、改进埃博拉优化(EOSA)、增强蚱蜢优化(EGOA)、无监督WOA、改进蜉蝣算法、梯度增强随机对比交互PSO(GradRCIPSO)、改进小龙虾优化(ICOA)、改进北方苍鹰优化(NGO)、变步长萤火虫算法(VSSFF)、改进大猩猩部队优化(MGTO)、退火控制位置洗牌(SAcPS)、增强喉部优化(BDTO)、改进季节优化算法、金豺优化(GJOA)、改进电磁场优化(MEFOA)、改进AOA(DAOA)、改进蝴蝶优化(IBOA)、改进果蝇优化(FOA)。
3.3 混合优化方法:包括基于群智能的混合方法(如黑猩猩优化结合Nelder-Mead单纯形(ChOA-NEMS)、改进蜉蝣与改进PSO(M2PSO)、混合非洲水牛与GA(HABO-GA)、基于蜻蜓的水波优化(DWWO)、抗冠状病毒优化与亨利气体溶解度优化(ACV-HGSO)、海鸥优化与PSO(SOA-PSO)、正弦余弦哈里斯鹰优化(SCHHO)、多目标改进Remora优化(MMROA)结合增强蚱蜢优化(EGOA)、PSO与Al-Biruni地球半径优化(PSOBER)、未来搜索算法与向日葵优化(FSA-SFO)、自适应贝塔爬山WOA(AdBet-WOA)、喉部优化与PSO(DTPO-PSO)、AttendSeg与引力聚类优化(HA-GC)、改进GWO与塔斯马尼亚魔鬼优化(IGWO-TDO)、二进制蚱蜢优化与ABC(BGOA-ABC)、PSO与Al-Biruni地球半径(PSO-ABERA)、黏菌算法与混沌博弈优化与海洋掠食者算法(SMA-CGO-MPA)、二进制矮猫鼬优化与二进制埃博拉优化与PSO(BDMO-BEOSA-PSO)、离散重组WOA(RESHWOA)、海豹胡须优化与深度学习(HSWOA-DLGCD)、蝙蝠算法与鸡群优化(Bat-CSO)、信息增益分组PSO(IG-GPSO)、自适应多群PSO与萤火虫算法(HAPSO-FFA)、PSO与GA结合、樽海鞘群与GWO(SSA-GWO)、切线搜索与鼠群优化(TRSO));基于进化的混合方法(如GA与ACO、教与学优化与GA(TLBOG)、GWO与GA与PSO、精英进化策略算术优化(ETAOA)、粪甲虫优化与GA(HGDBO)、GA与苍鹭群优化(DNN-GA-ESO)、CNN与Egret群优化(CNN-ESO)、GA与沙猫群优化(GA-SCSO)、克隆选择算法与PSO(CSA-PSO)、GA与互信息(GA-MI)、改进GWO与模拟退火(GWO-SA)、Relief二进制非洲秃鹫优化与差分进化(RBAVO-DE)、Relief二进制核反应优化与差分进化(RBNRO-DE));其他混合方法(如社会滑雪者驱动与自适应贝塔爬山(SSD-ABHC)、集成优化算法(EOA)、野马优化(WHO)结合高级Elman循环神经网络(AERNN)、裸鼹鼠算法(NMRA)用于LightGBM)。
3.4 机器学习方法:包括GA-萤火虫算法用于放射治疗调度、梯度提升结合贝叶斯优化用于宫颈癌检测、堆叠集成机器学习(SIML)用于宫颈癌筛查、响应面法(RSM)和ANN用于近距离治疗优化、集成深度学习用于皮肤癌检测、网格搜索和随机搜索用于超参数调优、多个分类器比较(SVM、决策树、ANN、ELM-ANN等)、长短期记忆(LSTM)结合数学优化用于肺癌诊断、两阶段过滤与多目标优化用于基因选择、纹理特征结合机器学习用于肺癌诊断等。这些方法未涉及元启发式优化。
**4 系统分析(Systematic Analysis)**
4.1 发表增长:基于Scopus数据库分析2018-2025年出版物数量,呈上升趋势,2024年达到峰值94篇,印度(143篇)、中国(56篇)、沙特阿拉伯(38篇)和伊朗(35篇)为主要贡献国家。期刊文章占70.2%,会议论文占25.5%。IEEE(60篇)、Elsevier(54篇)和Springer(40篇)为主要出版商。
4.2 最常用数据集:乳腺癌数据集(WBCD、WDBC、CBIS-DDSM、MIAS、INbreast、DDSM、BreakHis)使用最广泛;肺癌数据集(LC25000、IQ-OTH/NCCD、LIDC-IDRI、ELCAP、RIDER Lung CT)其次;微阵列和基因表达数据集(TCGA、GEO)用于高维分类;皮肤癌数据集(ISIC、PH2、Med-Node)用于黑色素瘤检测;宫颈癌数据集(Herlev、UCI宫颈癌风险数据集)用于早期筛查。
4.3 最常应用领域:癌症分类(二元和多类)、特征选择、图像分割、超参数调优和癌症检测是最常见的五个应用。
4.4 最常使用优化算法:遗传算法(GA)用于特征选择和超参数调优;粒子群优化(PSO)用于特征选择和模型训练;鲸鱼优化算法(WOA)用于CNN超参数优化和深度特征选择;灰狼优化(GWO)用于超参数调优和图像分割。这些算法各有优缺点,GA计算密集但全局搜索强,PSO收敛快但易早熟,WOA平衡搜索但对参数敏感,GWO参数少但探索有限。
4.5 挑战与开放问题:数据异质性和质量、可解释性与临床整合、计算成本与可扩展性、缺乏统一基准框架、需要动态自适应优化策略。
**5 结论与未来趋势(Conclusion and Future Trends)**
本研究系统综述了应用于癌症数据集医疗保健问题的元启发式优化技术。GA、PSO、WOA和GWO是最常用的算法。尽管取得显著成就,现有模型仍存在计算强度大、缺乏可解释性等问题。未来方向包括设计高效优化技术用于实时和资源受限环境、结合可解释机器学习、开发处理多模态数据的框架、探索实时自适应算法、推进多目标优化方法以及建立标准化评估协议。