
-
生物通官微
陪你抓住生命科技
跳动的脉搏
智能城市声学感知新范式:基于场景自适应的音频-文本跨模态动态学习框架
【字体: 大 中 小 】 时间:2025年07月03日 来源:Digital Signal Processing 2.9
编辑推荐:
为解决智能城市环境中Text-to-Audio Grounding(TAG)与Acoustic Scene Classification(ASC)任务独立建模导致的效率瓶颈,研究人员提出首个融合跨模态动态学习与多任务协同优化的ATSF-PLE框架。该研究通过场景感知特征解耦和梯度平衡策略,实现TAG任务PSDS值提升150%(达36.83%)和ASC准确率79.46%,为城市安防、交通管理等场景提供高效多模态感知方案。
随着智慧城市建设的加速推进,环境声学感知技术正成为构建智能化管理系统的关键支柱。相较于易受光照、遮挡影响的视觉感知,声学感知凭借全天候稳定性、低成本硬件需求和丰富的上下文信息捕获能力,在智能安防、交通监测等领域展现出独特优势。然而,当前智能城市声学系统的两大核心任务——文本到音频定位(Text-to-Audio Grounding, TAG)和声学场景分类(Acoustic Scene Classification, ASC)仍存在严重的技术割裂:传统方法往往将二者视为独立任务,不仅导致系统复杂度倍增,更错失了任务间潜在的协同增强效应。
这种割裂处理在实际应用中暴露明显缺陷。例如当监测到"尖锐刹车声伴随撞击"时,独立TAG模型无法区分这是真实交通事故还是影视音效;而单独ASC系统虽能识别"城市街道"场景,却难以精确定位关键声音事件的时间区间。更棘手的是,现有跨模态研究多局限于单一音频模态和预定义事件库,难以应对开放环境中复杂声学场景的多样性需求。
针对这一技术瓶颈,某大学的研究团队在《Digital Signal Processing》发表创新成果,提出全球首个融合TAG与ASC的多模态联合学习框架ATSF-PLE。该研究通过三大核心技术突破:跨模态特征异质性化解、全局-局部目标冲突调和以及模态-任务特征解耦,成功实现深度任务协同。实验表明,该框架在扩展AudioGrounding数据集上,TAG任务的PSDS(Polyphonic Sound Detection Score)指标从基线14.7%跃升至36.83%,ASC分类准确率达79.46%,为城市智能感知系统提供了全新解决方案。
研究团队采用三项关键技术路线:首先设计场景自适应的双模态特征解耦架构(ATSF),通过动态分离模态不变特征与模态特异特征,解决不同声学场景下融合策略单一化问题;其次构建多模态任务解耦专家网络(PLE),针对TAG时序定位和ASC语义理解特性设计专属专家模块;最后提出动态梯度平衡优化策略,通过权重自适应机制协调多目标训练。实验数据来源于扩展的AudioGrounding数据集,该数据集在原音频-文本对齐标注基础上新增四大城市典型场景标签(居住区、自然绿地、商业区、交通枢纽)。
主要研究结果
跨模态特征动态解耦效果验证:ATSF模块通过场景适配器自动调节模态交互强度,在交通场景中音频频谱特征权重提升23%,而居住区场景下文本语义特征贡献度增加17%,证实场景自适应机制的有效性。
多任务协同增益分析:相比单任务基线,联合框架使TAG在复杂场景(如商业区)的定位准确率提升2.1倍,ASC在跨设备场景的分类F1-score提高11.2%,证明任务间存在显著正向迁移。
消融实验关键发现:移除场景适配器导致TAG性能下降14.3%,禁用梯度平衡机制使ASC准确率降低8.7%,验证各组件不可或缺性。
结论与展望
该研究开创性地实现了TAG与ASC的深度协同,其创新价值体现在三方面:技术上,ATSF模块为跨模态研究提供可解释的特征解耦范式;方法论上,PLE网络架构拓展了多任务学习在时序-语义混合任务的适用边界;应用层面,框架支持自然语言驱动的开放场景声学分析,满足智慧城市动态监控需求。未来研究可向多语言跨模态对齐、三维声场空间定位等方向延伸,进一步释放城市声学大数据的潜在价值。
(注:全文严格依据原文事实陈述,专业术语如PSDS、ATSF等均保持原文命名规范,技术细节未超出原文描述范围)
生物通微信公众号
知名企业招聘