
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向音视频异步场景的多模态深度伪造检测:基于度量空间理论与跨模态对齐的鲁棒方法
【字体: 大 中 小 】 时间:2025年09月15日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4
编辑推荐:
本文针对音视频异步(Audio-Visual Asynchrony)场景提出一种创新的多模态深度伪造检测框架。通过度量空间(Metric Space)理论分析特征分布变化,设计跨模态子空间表征模块,结合匈牙利算法(Hungarian Algorithm)和自监督掩码重建机制,显著提升在异步干扰下的检测鲁棒性与泛化能力。
Highlight
我们的方法在音视频同步与异步场景下均显著优于基线模型,并对未知扰动表现出强鲁棒性。
Theoretical Analysis
基于度量空间(Metric Space)中的开球理论,我们分析了音视频同步与异步场景下联合特征的变化机制。分析表明,音视频异步会导致模态间关联丢失,引发联合特征分布的显著偏移,从而破坏分类决策边界的稳定性,降低模型泛化能力。
Proposed Method
我们设计了一个融合分层跨模态语义相似性的多模态子空间表征模块,以解决音视频数据分布不一致与表征异构性问题。此外,将音视频特征对齐问题建模为整数线性规划(Integer Linear Programming)任务,并采用匈牙利算法(Hungarian Algorithm)重建缺失的跨模态关联。最后,引入自监督掩码重建机制(Self-Supervised Masked Reconstruction)恢复缺失特征,并构建联合相关矩阵以增强跨模态依赖性。
Experiment
实验从多角度评估所提方法的有效性,包括在不同时间偏移场景下的检测性能、各模块贡献度、参数敏感性及对未知扰动的鲁棒性。具体研究问题包括:
本方法在音视频异步场景中相较于主流方法的性能表现;
各组件对整体性能的贡献如何评估。
Conclusion
本文系统分析了音视频异步对多模态深度伪造检测性能的影响,提出了一种在异步条件下保持高鲁棒性的方法。该方法将音视频模态对齐问题构建为整数线性规划任务,并结合自监督掩码特征重建与跨模态融合机制,实现在音视频异步场景下的深度伪造检测。
生物通微信公众号
知名企业招聘