
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度迁移学习和Hiking优化算法的视觉障碍辅助技术:高效目标检测模型研究
【字体: 大 中 小 】 时间:2025年08月18日 来源:Scientific Reports 3.9
编辑推荐:
本研究针对视觉障碍人群的辅助需求,提出了一种结合深度迁移学习和Hiking优化算法(HOA)的目标检测模型EATBP-ODHOA。通过融合ResNet和DenseNet-201特征提取、双向门控循环单元(Bi-GRU)分类及自适应双边滤波(ABF)预处理,模型在室内目标检测数据集中达到99.25%的准确率,显著优于现有技术,为实时辅助设备提供了高效解决方案。
视觉障碍对个体的认知和心理功能具有深远影响,全球约22亿人受此困扰。尽管现有技术聚焦于移动导航和基础目标检测,但美学体验和复杂场景适应性仍被忽视。传统辅助设备常因高成本、低实时性受限,而计算机视觉(CV)技术的进步为这一领域带来新机遇。目标检测作为CV核心任务,其性能直接决定辅助设备的实用性。然而,现有模型在动态环境、小目标检测及计算效率方面存在明显短板。
针对这些问题,沙特阿拉伯Prince Sattam bin Abdulaziz University等机构的研究团队在《Scientific Reports》发表论文,提出了一种名为EATBP-ODHOA的创新模型。该研究通过整合多模态深度学习和元启发式优化算法,实现了高精度实时目标检测,为视觉障碍者提供了更可靠的环境感知工具。
研究采用自适应双边滤波(ABF)预处理图像,结合Faster R-CNN进行目标检测,融合ResNet-50和DenseNet-201提取多层次特征,并利用双向门控循环单元(Bi-GRU)捕捉时序依赖关系。模型参数通过Hiking优化算法(HOA)动态调整,在6,642张室内场景图像(含10类物体)中验证性能。
ABF技术有效平衡去噪与边缘保留,峰值信噪比提升15%。Faster R-CNN的区域提议网络(RPN)将检测速度提高至10.87秒/帧,较传统YOLOv5快2.4倍。
ResNet-50和DenseNet-201的融合特征使小目标(如"Pole")检测召回率从24.14%提升至77.78%。Bi-GRU通过双向上下文建模,将分类FMeasure提高至93.57%。
HOA算法将模型收敛速度加快40%,准确率达99.25%,显著优于CTF-Net(98.81%)和DCASR(95.65%)。在70:30训练/测试集划分下,AUC分数达95.78%。
该研究通过ABF-HOA协同优化和跨架构特征融合,解决了视觉辅助技术中精度与实时性的矛盾。其创新性体现在:
技术整合:首次将HOA用于CV模型调参,减少人工干预;
场景适应性:在遮挡和光照变化条件下保持稳定性能;
轻量化潜力:为嵌入式设备部署提供可能。
局限在于数据集仅覆盖室内场景,未来需扩展至户外环境并探索多模态反馈(如触觉提示)。这项工作为联合国可持续发展目标(SDG)中"减少不平等"条款提供了技术支撑,其开源代码和数据集(Kaggle公开)将加速相关研究进展。


生物通微信公众号
知名企业招聘