利用多任务混合注意力网络进行音视频事件定位，以支持智能医疗系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Internet Technology》：Audio-Visual Event Localization using Multi-task Hybrid Attention Networks for Smart Healthcare Systems

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Internet Technology

编辑推荐：

　　人类感知依赖视觉与听觉的互补特性，推动多模态学习发展，音频视觉事件定位（AVEL）是重要应用方向。本文提出多任务混合注意力网络（MHAN），通过单模态注意力块与跨模态并行注意力块融合多模态特征，结合单模态视觉任务作为辅助监督，有效解决异质数据语义不一致问题，在AVE数据集上显著优于现有方法。

摘要

人类的感知在很大程度上依赖于两种主要感官：视觉和听觉，这两种感官紧密相连且能够相互补充。因此，出现了多种多模态学习任务，其中音频-视觉事件定位（AVEL）是一个突出的例子。AVEL是多模态学习领域中的一项热门任务，其主要目标是识别每个视频片段中的事件并预测这些事件的类别。这项任务在医疗监控和监控等领域具有重要的应用价值。总体而言，与单模态学习相比，音频-视觉协同学习提供了更全面的信息视图，因为它能够更全面地感知环境信息，这与实际应用需求更为契合。然而，音频和视觉数据本身的异质性可能会引入与事件语义不一致相关的挑战，从而导致预测错误。为了应对这些挑战，我们提出了一种多任务混合注意力网络（MHAN），以获得高质量的多模态数据表示。具体来说，我们的网络结合了单模态注意力模块和平行跨模态注意力模块（HAUC），包括一个单模态注意力块和一个平行跨模态注意力块，利用多模态数据的互补性和隐藏信息来实现更好的表示效果。此外，我们还建议使用单模态视觉任务作为辅助监督，以提高采用多任务学习策略的多模态任务的性能。基于在AVE数据集上进行的广泛实验，我们的模型已被证明优于现有的最先进成果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号