
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多尺度特征融合与大核注意力机制的YOLO-LG模型在认知障碍患者手势识别中的应用研究
【字体: 大 中 小 】 时间:2025年07月16日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
为解决认知障碍患者手势识别在复杂环境中准确率不足的问题,研究人员提出基于YOLOv8架构的YOLO-LG模型。该模型通过聚集-分配机制(GD)增强多尺度特征融合能力,引入大分离核注意力模块(LSKA)提升关键特征聚焦,并采用动态非单调聚焦机制优化Wise-IoU损失函数。实验表明,模型在HaGRID和自建CGDS数据集上mAP@0.5分别提升0.58%和1.4%,为认知功能评估提供新工具。
认知障碍患者的精准手势识别对疾病评估和康复至关重要,但现有计算机视觉模型在复杂环境中面临手势变形和背景干扰的挑战。传统评估依赖医生观察量表如MMSE和McoA,而动态手势识别受限于特征融合不足和细节捕捉困难。针对这些问题,湖南科研团队在《Biomedical Signal Processing and Control》发表研究,提出创新性解决方案。
研究团队采用三大关键技术:1)在YOLOv8颈部引入聚集-分配机制(GD),通过跨层特征融合增强多尺度信息整合;2)在空间金字塔池化模块(SPPF)嵌入大分离核注意力(LSKA),利用可分离卷积捕获长程上下文;3)采用动态非单调聚焦的Wise-IoU损失函数,通过"异常值度"优化边界框回归。实验数据来自公开数据集HaGRID和自建认知障碍患者手势库CGDS。
【方法论】通过C2F模块提取手势特征,GD机制实现高低层特征双向交互,LSKA模块的35×35大卷积核增强空间注意力,WIoU动态调整困难样本权重。
【数据集】HaGRID数据集涵盖复杂光照和遮挡场景,自建CGDS包含患者多角度手势数据,两者均标注手势类别和位置信息。
【结果】YOLO-LG在HaGRID和CGDS上mAP@0.5分别达98.58%和97.4%,推理速度保持45FPS。消融实验显示LSKA模块使手势细节识别准确率提升2.1%。
该研究突破性地将大核注意力与特征金字塔结合,为认知障碍量化评估提供客观指标。模型在保持实时性的同时提升复杂手势识别精度,其动态聚焦机制对微小手势变化具有独特敏感性。团队建立的CGDS数据集填补了患者特异性手势数据空白,推动计算机视觉在医疗辅助诊断中的应用。
生物通微信公众号
知名企业招聘