基于新型图像数据集的移动辅助工具使用者检测与分类研究:填补残疾人群视觉识别空白

【字体: 时间:2025年06月25日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对计算机视觉领域残疾人群数据集匮乏的问题,研究人员构建了包含轮椅/拐杖使用者及健全人的新型图像数据集(10,548标注实例),采用ResNet50分类模型和YOLOv8检测模型进行系统评估。结果显示:五类分类平均精度达94.36%,检测模型mAP50达0.929,显著提升移动辅助工具识别性能,为智能系统包容性设计提供重要数据支撑。

  

在人工智能技术蓬勃发展的今天,计算机视觉系统已广泛应用于机器人、监控和自动驾驶等领域。然而一个长期被忽视的问题是:当前主流的人体检测数据集严重缺乏残疾人群的代表性数据。据世界卫生组织统计,全球15%人口患有残疾,约25%的劳动者在67岁前会经历暂时性残疾。令人震惊的是,Google Datasets平台上数百万公开数据集中,仅3个包含移动辅助工具使用者图像,且仅1个被学术文献报道。这种数据缺失导致现有视觉系统难以准确识别轮椅、拐杖等移动辅助工具及其使用者,可能对残疾人群的安全保障造成潜在威胁。

针对这一重大技术与社会需求,研究人员开展了开创性研究,构建了首个专注于移动辅助工具使用者的多样化图像数据集。该数据集包含2,829张来自真实场景的图像,涵盖轮椅使用者(WCH_U)、拐杖使用者(CN_U)、健全人(ABP)、轮椅(WCH)和拐杖(CN)五类平衡标注(共10,548个标注框),所有图像均经过人脸模糊处理以保护隐私。研究团队采用ResNet50架构进行图像分类(输入分辨率64×64至256×256像素),并基于YOLOv8模型(预训练于COCO数据集)开展目标检测实验,通过严格评估验证了数据集的有效性。

2.1 数据集
数据集通过人工标注从10个版权豁免平台获取,包含室内外多样化场景。特别值得注意的是,轮椅类别涵盖电动轮椅和运动轮椅,拐杖类别包含平衡辅助杖和盲人白杖,充分体现了现实场景的复杂性。

3.1 五分类结果
在256×256分辨率下取得最高平均精度94.36%,其中拐杖识别精度达99.11%。有趣的是,128×128分辨率下轮椅识别精度(96.64%)反而高于更高分辨率,表明适度分辨率可平衡细节识别与计算效率。

3.1.1 置信度阈值分析
设置0.9置信阈值时,仅1.7%高精度分类样本被过滤,证明模型具有高度确定性。典型错误案例显示,背景干扰(如行人手持细长物体被误判为拐杖)是主要误判原因。

3.3 检测性能
采用YOLOv8的默认优化器(AdamW+SGD)获得最佳综合性能:整体精度0.899,mAP50达0.929。值得注意的是,移动辅助工具使用者检测(WCH_U精度0.951,CN_U精度0.915)显著优于单独检测辅助工具,表明人体关联特征对识别具有增强作用。

4 讨论
与Vasquez et al. (2017)数据集相比,新数据集训练的模型在移动辅助工具检测上实现显著提升(mAP50-95提高0.065)。研究揭示两个重要发现:(1) 中等分辨率(128×128)在精度与效率间取得最佳平衡;(2) 包含使用者的检测方式比单独检测辅助工具更可靠。该研究首次系统论证了数据多样性对残疾人群识别的重要性,为《Expert Systems with Applications》提供了具有社会价值的计算机视觉创新成果。

这项研究的深远意义在于:它不仅填补了计算机视觉领域的技术空白,更通过严谨的实验证明,只有当人工智能训练数据充分反映人类多样性时,才能真正实现"科技为人人"的包容性发展目标。研究团队特别强调,移动辅助工具对使用者而言,就如同健全人的随身物品一样普通而必要——两者都应在智能系统的视野中获得平等关注。这种技术突破与社会责任并重的研究范式,为AI伦理实践提供了重要参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号