编辑推荐:
在孟加拉国,视障者穿越人行道困难重重。研究人员开展 “Towards walkable footpath detection for the visually impaired on Bangladeshi roads with smartphones using deep edge intelligence” 主题研究,提出 QPULM 模型和 SODD 技术,模型准确率达 99.37% ,为视障者导航提供有效方案。
在孟加拉国,街道上的人行道对于视障人士而言,仿佛布满陷阱的迷宫。孟加拉国人口密度极高,仅首都达卡就有大量视障者面临出行难题。当地人行道状况堪忧,常常被各种障碍物堵塞,如建筑材料、路边摊贩、电线杆、树木等,这让视障者在行走时举步维艰,极易发生危险。同时,现有的导航辅助手段,如依靠他人引导、使用拐杖或自动轮椅等,存在成本高、不方便或效率低等问题,无法有效帮助视障者安全通过人行道。在这样的背景下,开展一项能够精准检测可步行人行道并为视障者提供有效导航的研究迫在眉睫。
来自国外的研究人员针对上述问题展开了深入研究。他们提出了一种基于智能手机的深度学习边缘智能系统,旨在帮助孟加拉国的视障者更安全地穿越人行道。研究得出的结论意义重大,该系统中的 QPULM 模型和 SODD 技术表现出色,QPULM 模型展现出高达 99.37% 的准确率,能有效检测可步行区域,SODD 技术可精准检测障碍物及其距离,二者结合为视障者提供了可靠的导航信息,极大地改善了视障者的出行体验。该研究成果发表在《Array》。
研究人员为开展此项研究,主要运用了以下关键技术方法:首先,收集了包含 3000 张人行道图像及其对应掩码的数据集,这些图像大多取自孟加拉国达卡市附近 ,用于模型训练;其次,构建了名为 “Quantized and Pruned UNet - based Lightweight MobileNet Model(QPULM)” 的模型,该模型基于卷积神经网络(CNN)和 UNet 架构,利用预训练的 MobileNetV3Small 模型进行特征提取,经多次训练和优化,以实现精确的语义分割;此外,使用了分割式障碍物距离检测(Segmentation based Obstacle Distance Detection,SODD)技术来检测障碍物距离;最后,开发了一款基于 Android 系统的智能手机应用程序,将模型和检测技术集成其中,方便视障者使用。
研究结果
- 模型评估指标:研究人员使用了多种评估指标,如准确率、精确率、召回率、交并比(IoU)和骰子系数等,对包括 QPULM 在内的多个预训练模型进行评估。结果显示,QPULM 模型在各项指标上表现优异,准确率达到 99.37%,远超其他对比模型,在检测可步行区域和障碍物方面具有极高的可靠性。
- 模型性能对比:通过与其他基于迁移学习的预训练模型比较,如 InceptionV3 - based Unet、ResNet50V2 - based Unet、MobileNet2 - based Unet、MobileNetV3 等,QPULM 模型不仅准确率最高,而且模型大小仅为 5MB,相比其他模型更加紧凑和优化,在保证性能的同时,更适合在智能手机等边缘设备上部署。
- 量化效果:对 QPULM 模型进行量化处理后,模型的执行时间从 647ms 大幅缩短至 120.7ms,模型大小从 27.4MB 减小到 5.11MB,在几乎不损失精度的情况下,显著提高了模型的运行效率,进一步提升了在实际应用中的实用性。
- 距离检测效果:SODD 技术通过将预测的二进制掩码划分为网格,计算每个网格中可步行区域的像素数量,从而估计障碍物的距离。实验表明,该技术能够较为准确地检测出前方、左侧和右侧的障碍物距离,为视障者提供了关键的导航信息。
- 应用实现:开发的 Android 应用程序通过 Chaquopy 框架实现了 Python 脚本在 Java/Kotlin 代码中的运行,方便地集成了 QPULM 模型和 SODD 技术。视障者可以通过语音指令操作应用程序,拍摄实时图像或选择相册中的照片进行检测,应用程序会通过 Google 文本转语音(GTTS)API 告知视障者前方、右侧和左侧的可行走路径信息,实现了便捷的导航功能。
研究结论与讨论
本研究成功开发了一套基于智能手机深度学习边缘智能的系统,为孟加拉国视障者提供了有效的人行道导航解决方案。QPULM 模型和 SODD 技术的结合,使得视障者能够通过智能手机实时检测可步行区域和障碍物距离,极大地提高了他们在人行道上行走的安全性和便利性。
然而,研究也存在一定的局限性。例如,夜间拍摄的图像由于光线不足,可能导致检测结果不准确;训练数据集仅涵盖孟加拉国的人行道情况,无法完全适应不同国家和地区的复杂场景,如不同的天气条件和照明环境。
未来,研究可以朝着多个方向进一步拓展。一方面,可以收集更广泛的数据集,涵盖不同国家和各种复杂条件下的人行道场景,以提高模型的泛化能力;另一方面,可以开展消融研究,对比不同深度神经网络(DNN),如 Transformer 和图神经网络(GNN)的性能,探索更优的模型架构;此外,开发基于多模态数据(如音频和视频)的 360 度视频分析系统,能够为视障者提供更全面的周围环境信息,进一步提升导航系统的性能,为视障者创造更安全、便捷的出行条件。这项研究为解决视障者的出行难题迈出了重要一步,其成果和后续研究方向有望对视障者导航领域产生深远影响。