基于多模态学习的音视频检测技术在日语教学场景中的对象级声源定位研究

【字体: 时间:2025年05月14日 来源:Scientific Reports 3.8

编辑推荐:

  为解决日语教学场景中难以精准定位声源对象的问题,西安外国语大学与西安交通大学联合团队创新性地提出基于多模态学习的音视频检测(AVD)方法。研究构建了包含6类教学行为的专属数据集,开发了集成TPAVI+模块的AVDor检测器,实验显示其mAMP达56.19%,显著优于传统视觉检测器。该成果为智能教育系统提供了精准的课堂事件分析工具,推动人工智能与教育场景的深度融合。

  

在拥挤的日语教学课堂中,教师常面临难以快速定位窃窃私语或回答问题学生的困扰。传统基于纯视觉的检测方法因图像特征模糊导致准确率受限,而现有音频定位技术又无法实现对象级识别。这一痛点促使西安外国语大学与西安交通大学的研究团队在《Scientific Reports》发表创新研究,通过融合音频与视觉模态信息,开发出能精准定位教学场景声源对象的智能检测系统。

研究团队采用多模态深度学习框架,关键技术包括:1)构建含4500张标注图像的教学场景数据集,涵盖6类典型声源行为;2)设计改进型TPAVI+特征融合模块,通过增强器优化音视频特征权重;3)基于ResNet-50和VGGish分别提取视觉与音频特征;4)创新性提出结合mAP与音频视觉匹配率(AVMR)的mAMP评价指标。所有实验均在配备NVIDIA RTX 3090 GPU的平台上完成,采用PyTorch框架实现。

音频视觉检测器设计
研究提出的AVDor采用三阶段架构:特征提取阶段使用ResNet和VGGish分别处理视觉与音频输入;特征融合阶段通过TPAVI+模块实现跨模态交互,其核心创新在于引入增强器控制特征重要性,数学表达为F'=Feh×F;检测头部分采用一阶段检测范式输出对象位置与类别。损失函数设计包含检测损失Ldet和音视频关系损失Lavd,后者通过KL散度度量特征相似性。

实验验证
在自建数据集上的对比实验显示,AVDor以56.19% mAP显著超越YOLOv8x(54.27%)等纯视觉检测器。TPAVI+模块相比原版TPAVI提升1.67% mAP,证明增强器能有效优化特征融合。可视化结果证实系统可准确识别拍手、窃语等教学行为,其中"教师讲话"类别的检测准确率最高(906个测试样本),反映系统对主要教学主体的捕捉能力。

讨论与展望
该研究首次将对象级音视频检测引入教学场景,其构建的基准数据集和评价体系为后续研究奠定基础。实验证实音频信息可使检测性能提升约5%,特别有助于解决学生 seated answering( seated answering)等纯视觉难以判定的场景。局限性在于当前数据集规模有限,且对重叠声源的区分能力有待提升。未来可通过增加跨文化教学场景数据来增强模型泛化能力。

这项研究标志着智能教育技术从单一模态向多模态协同分析的重要跨越。通过将声源定位精度提升至对象级别,为教师提供了全新的课堂管理工具,也为开发具备环境感知能力的下一代智慧教室系统提供了关键技术支撑。随着教育信息化2.0时代的到来,这种融合多模态人工智能算法的解决方案,有望在语言教学、远程教育等更多场景中发挥变革性作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号