基于组合遗传算法的特征顺序优化提升图像检索性能研究

【字体: 时间:2025年08月08日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对高维深度特征向量转换为紧凑二进制条形码的关键挑战,创新性地提出了一种基于组合遗传算法(CGA)的特征顺序优化方法。研究人员通过进化算法优化dHash25和DFT-Hash等哈希方法的特征排列顺序,在TCGA癌症基因组图谱、COVID-19胸部X光等医学影像及CIFAR、Fashion-MNIST等非医学数据集上验证了该方法可显著提升mAP(平均精度均值)和F1-score等检索指标,为大规模图像检索提供了高效解决方案。

  

在数字医疗和计算机视觉领域,如何从海量图像库中快速准确地检索出相似案例一直是个巨大挑战。传统方法面临两个关键瓶颈:一是高维深度特征占用大量存储空间,二是现有哈希方法生成的二进制条形码检索精度不足。特别是在医学影像领域,如癌症诊断需要比对数百万张病理切片,这对图像检索系统提出了极高要求。

研究人员注意到,现有差异哈希(dHash25)和离散傅里叶变换哈希(DFT-Hash)等方法对特征顺序极为敏感,而传统方法往往采用随机或默认排序,导致检索性能欠佳。这就像把一本百科全书的内容随机打乱页码,即使每个词条都很完整,读者也难以快速找到所需信息。针对这一关键问题,研究人员创新性地将特征顺序优化建模为组合优化问题,开发了基于组合遗传算法(CGA)的解决方案。

这项发表在《Scientific Reports》的研究采用了多数据集验证策略,包括来自癌症基因组图谱(TCGA)的30,072张全切片图像(WSI)、COVID-19胸部X光数据集,以及CIFAR-10/100和Fashion-MNIST等标准计算机视觉数据集。关键技术方法包括:1)使用KimiaNet和DenseNet-121等预训练模型提取深度特征;2)设计专门针对排列组合问题的遗传算法操作符(顺序交叉和倒位变异);3)以mAP作为直接优化目标;4)在保持严格训练/测试分割条件下评估检索性能。

研究结果部分,"检索性能在TCGA上的表现"显示,在KimiaNet提取的肺组织特征上,CGA-dHash达到了0.8743的Precision@k和0.8620的mAP,显著优于传统方法。"在CIFAR-10/100上的检索性能"表明,虽然aHash30在CIFAR-10上表现最佳,但CGA在更具挑战性的CIFAR-100上获得了0.7496的最高F1-score。"参数敏感性分析"揭示,交叉概率(CR)为0.9且变异概率(MR)为0.1时,在大多数数据集上达到最优平衡。

"收敛性分析"部分通过迭代曲线证实,CGA-dHash在脑肿瘤等组织类型上表现出稳定上升的收敛趋势。特别是在DenseNet-121提取的特征上,经过60代优化后F1-score可稳定在0.8以上。值得注意的是,在"特征顺序是否重要"的探讨中,研究证实即使是高质量深度特征,不当的排列顺序也会使Hamming距离失真达30%以上。

这项研究的创新价值主要体现在三个方面:首先,首次系统研究了特征顺序对二进制条形码质量的影响,填补了该领域的研究空白;其次,提出的CGA框架不依赖特定网络架构,可广泛应用于各类预训练模型;最后,在保持哈希方法简洁性的同时,达到了与复杂深度哈希相当甚至更好的性能。对于临床实践而言,这项技术可使病理学家在数秒内检索到相似癌症病例,显著提升诊断效率和准确性。在更广泛的计算机视觉领域,该方法为构建高效的图像搜索引擎提供了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号