编辑推荐:
视障者在社交和日常活动中面临诸多挑战,研究人员开展了 “Advanced smart assistance with enhancing social interaction and daily activities for visually impaired individuals using deep learning with modified seagull optimization” 研究。提出 ADD-MSGOEL 方法,实验准确率达 97.59% ,有助于提升视障者生活质量。
在日常生活中,视障人士由于难以获取实时环境信息,在社交和日常活动中困难重重。同时,在基础设施领域,桥梁等结构的损伤检测至关重要,传统的视觉检测方法依赖工程师经验,容易出现错误和遗漏,且效率较低。为了改善视障者的生活状况,同时提高损伤检测的准确性和效率,来自沙特阿拉伯泰夫大学(Taif University)、公主努拉?宾特?阿卜杜勒拉赫曼大学(Princess Nourah bint Abdulrahman University)、王子萨塔姆?本?阿卜杜勒阿齐兹大学(Prince Sattam bin Abdulaziz University)以及埃及开罗大学(Cairo University)的研究人员开展了相关研究。他们提出了一种结合深度学习与改进海鸥优化算法的自动损伤检测方法(ADD-MSGOEL),该研究成果发表在《Scientific Reports》上。这一研究对于提升视障者的生活质量,保障基础设施安全具有重要意义。
研究人员为开展此项研究,运用了多种关键技术方法。首先,使用对比度受限自适应直方图均衡化(CLAHE)对图像进行预处理,增强图像的对比度和质量;接着,通过扩张卷积块注意力模块与高效网络(DCBAM-EfficientNet)提取图像的复杂内在特征;然后,利用改进的海鸥优化算法(MSGO)对 DCBAM-EfficientNet 模块的参数进行优化;最后,采用长短期记忆网络(LSTM)、双向门控循环单元(BiGRU)和稀疏自动编码器(SAE)组成的集成模型对损伤进行分类和检测。研究使用了 CODEBRIM 数据集进行实验。
研究结果
- ADD-MSGOEL 方法流程:该方法主要包括图像增强、特征提取、参数调优和集成学习四个关键步骤。在图像增强阶段,CLAHE 通过对图像局部对比度的增强,有效避免了噪声的过度放大,使后续模型训练能够获取更准确的特征。特征提取环节,DCBAM-EfficientNet 模块结合了扩张卷积、注意力机制和高效网络的优势,提升了模型对复杂数据模式的检测能力。利用 MSGO 进行参数调优,能够在复杂的参数空间中进行高效搜索,避免模型陷入局部最优解。集成学习阶段,LSTM、BiGRU 和 SAE 的结合,充分发挥了各个模型在处理序列数据和提取关键特征方面的优势,增强了模型的鲁棒性和泛化能力123。
- 实验评估指标:研究人员使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和 F 分数(F-Score)等指标对 ADD-MSGOEL 方法进行评估。在不同的训练集和测试集划分比例下,该方法都展现出了良好的性能。例如,在 80% 训练集(TRAPS)和 20% 测试集(TESPS)的划分下,ADD-MSGOEL 方法的平均准确率达到 97.59%,精确率为 92.55%,召回率为 91.29%,F 分数为 91.85%。在 70% TRAPS 和 30% TESPS 的划分下,也取得了较高的评估指标分数47。
- 与其他模型对比:将 ADD-MSGOEL 方法与 MetaQNN、ENAS、VGG16、Inceptionv3、ResNet50、Xception 和 RCBDD-AOADFF 等近期模型进行对比,结果显示 ADD-MSGOEL 技术在准确率、精确率和召回率等方面均表现更优,且计算时间(CT)最短,仅为 0.91s,证明了该方法在损伤检测方面具有显著的优势56。
研究结论与讨论
研究表明,ADD-MSGOEL 方法能够有效检测视障者周围环境中的损伤和潜在危险,准确率高达 97.59%,优于现有的其他模型。该方法通过 CLAHE 预处理、DCBAM-EfficientNet 特征提取、MSGO 参数调优以及 LSTM、BiGRU 和 SAE 的集成学习,实现了对复杂损伤的准确分类和检测。这一研究成果对于改善视障者的社交生活和日常活动能力具有重要意义,为他们提供了更加安全和便捷的生活保障。同时,在基础设施损伤检测领域,该方法也展现出了巨大的应用潜力,能够提高检测效率和准确性,及时发现潜在的安全隐患,保障基础设施的结构完整性和使用寿命。未来,研究人员可以进一步优化该方法,探索其在更多场景下的应用,为视障者和基础设施安全领域带来更多的福祉。