基于深度神经网络结合训练批次增强的非特定说话人视觉语言识别研究

【字体: 时间:2025年05月27日 来源:Intelligent Systems with Applications CS5.6

编辑推荐:

  针对视觉语言识别(VLID)中基于图像的视觉识别特征依赖说话人的问题,研究人员开展基于深度神经网络结合训练批次增强的非特定说话人 VLID 研究。利用 YOLO 和 3D 卷积循环神经网络,发现加入干扰类可提升 7.77% 准确率,集成分类最高提升 7.27%。该研究为 VLID 发展提供新方向。

  在嘈杂环境或无音频信号的场景中,传统基于音频的语言识别方法往往难以有效工作,例如远程监控等场景下,亟需一种不依赖音频的语言识别技术。视觉语言识别(Visual Language Identification, VLID)通过分析嘴部的外观和运动来判断所讲语言,为解决这些问题提供了新的可能。然而,VLID 面临的主要挑战是基于图像的视觉识别特征具有说话人依赖性,不同说话人之间的特征缺乏有意义的对应关系,这使得模型难以泛化到新的说话人。
为了攻克这一难题,研究人员开展了相关研究。研究人员使用 53 名分别用阿拉伯语、英语或普通话背诵《世界人权宣言》的个体的视频,进行了一项非特定说话人、五折交叉验证实验,任务是从 10 秒的嘴部视频中辨别所讲语言。该研究成果发表在《Intelligent Systems with Applications》。

研究人员采用了以下关键技术方法:首先使用 YOLOv8 对象检测算法对嘴部进行实时跟踪,提取嘴部区域;然后采用由 3D 卷积神经网络(3D Convolutional Neural Networks, 3D CNN)和门控循环单元(Gated Recurrent Units, GRU)组成的集成神经网络进行分类;在训练过程中,提出一种新颖的训练批次构建方法,将样本复制并反转时间顺序形成干扰类(distractor class),以促使神经网络学习语言的判别性时间特征而非说话人身份。

不同神经网络架构的性能比较


研究人员首先比较了基线神经网络中不同层类型的性能,包括全连接层、长短期记忆网络(Long Short Term Memory, LSTM)层和 GRU 层。实验结果表明,包含 GRU 层的架构平均测试准确率最高,为 71.48%,其次是 LSTM 层(69.11%)和全连接层(67.10%)。这表明循环神经网络(Recurrent Neural Networks, RNN)能够更好地捕捉语言的时间特征,而 GRU 层在 VLID 任务中表现优于 LSTM 层。

干扰类对分类性能的影响


在使用 GRU 层的基础上,研究人员进一步引入干扰类进行训练。结果显示,平均准确率提高了 7.77%,达到 79.25%,且通过配对样本 t 检验验证了这一提升具有统计学显著性。干扰类的使用迫使模型不再依赖说话人身份特征,而是专注于语言的时间动态特征,有效缓解了过拟合问题,提高了模型的泛化能力。

集成分类器的效果


研究人员探索了集成分类器的性能,将五个不同的神经网络输出的置信度分数求和,选择分数最高的类别作为最终分类结果。结果表明,集成分类器在所有网络配置中均提高了分类性能,对于使用干扰类的 GRU 网络,集成分类使准确率从 79.25% 提升至 84.64%,验证了集成方法能够结合多个分类器的优势,进一步提升模型性能。

与先前工作的对比及两语言实验


在两语言(英语和阿拉伯语)分类实验中,使用 7 秒语音片段,平均分类准确率达到 90.01%,相比先前工作提高了 3.6%。这表明该研究提出的方法在不同语言组合和样本长度下均具有有效性和鲁棒性,进一步验证了干扰类和集成分类方法的普适性。

错误分析与模型局限性


通过对误分类样本的分析,发现嘴部跟踪错误、摄像头对焦不良以及说话人生理差异等因素会影响分类性能。尽管 UN2 数据集在训练 DNN 时规模较小,可能限制了准确率的进一步提升,但该研究成功建立了一个基线模型,为后续更复杂任务的研究提供了基础。

综上所述,该研究提出的基于深度神经网络结合训练批次增强的方法,有效解决了 VLID 中的说话人依赖性问题,显著提高了分类准确率。干扰类的引入和集成分类器的使用为 VLID 研究提供了新的思路和方法,推动了该领域的发展。未来研究可进一步扩大数据集规模,探索更复杂的分类任务,并优化模型以提高对跟踪误差等干扰因素的鲁棒性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号