基于深度迁移学习和Hiking优化算法的视觉障碍辅助技术:高效目标检测模型研究

【字体: 时间:2025年08月18日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对视觉障碍人群的辅助需求,提出了一种结合深度迁移学习和Hiking优化算法(HOA)的目标检测模型EATBP-ODHOA。通过融合ResNet和DenseNet-201特征提取、双向门控循环单元(Bi-GRU)分类及自适应双边滤波(ABF)预处理,模型在室内目标检测数据集中达到99.25%的准确率,显著优于现有技术,为实时辅助设备提供了高效解决方案。

  

研究背景与意义

视觉障碍对个体的认知和心理功能具有深远影响,全球约22亿人受此困扰。尽管现有技术聚焦于移动导航和基础目标检测,但美学体验和复杂场景适应性仍被忽视。传统辅助设备常因高成本、低实时性受限,而计算机视觉(CV)技术的进步为这一领域带来新机遇。目标检测作为CV核心任务,其性能直接决定辅助设备的实用性。然而,现有模型在动态环境、小目标检测及计算效率方面存在明显短板。

针对这些问题,沙特阿拉伯Prince Sattam bin Abdulaziz University等机构的研究团队在《Scientific Reports》发表论文,提出了一种名为EATBP-ODHOA的创新模型。该研究通过整合多模态深度学习和元启发式优化算法,实现了高精度实时目标检测,为视觉障碍者提供了更可靠的环境感知工具。

关键技术方法

研究采用自适应双边滤波(ABF)预处理图像,结合Faster R-CNN进行目标检测,融合ResNet-50和DenseNet-201提取多层次特征,并利用双向门控循环单元(Bi-GRU)捕捉时序依赖关系。模型参数通过Hiking优化算法(HOA)动态调整,在6,642张室内场景图像(含10类物体)中验证性能。

研究结果

图像预处理与目标检测

ABF技术有效平衡去噪与边缘保留,峰值信噪比提升15%。Faster R-CNN的区域提议网络(RPN)将检测速度提高至10.87秒/帧,较传统YOLOv5快2.4倍。

特征提取与分类

ResNet-50和DenseNet-201的融合特征使小目标(如"Pole")检测召回率从24.14%提升至77.78%。Bi-GRU通过双向上下文建模,将分类FMeasure提高至93.57%。

优化与性能对比

HOA算法将模型收敛速度加快40%,准确率达99.25%,显著优于CTF-Net(98.81%)和DCASR(95.65%)。在70:30训练/测试集划分下,AUC分数达95.78%。

结论与展望

该研究通过ABF-HOA协同优化和跨架构特征融合,解决了视觉辅助技术中精度与实时性的矛盾。其创新性体现在:

  1. 1.

    技术整合:首次将HOA用于CV模型调参,减少人工干预;

  2. 2.

    场景适应性:在遮挡和光照变化条件下保持稳定性能;

  3. 3.

    轻量化潜力:为嵌入式设备部署提供可能。

局限在于数据集仅覆盖室内场景,未来需扩展至户外环境并探索多模态反馈(如触觉提示)。这项工作为联合国可持续发展目标(SDG)中"减少不平等"条款提供了技术支撑,其开源代码和数据集(Kaggle公开)将加速相关研究进展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号