
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向音视频异步场景的多模态深度伪造检测:基于度量空间理论与跨模态特征对齐的鲁棒性研究
【字体: 大 中 小 】 时间:2025年09月15日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4
编辑推荐:
本文针对音视频异步(Audio-Visual Asynchrony)场景下的深度伪造检测难题,提出一种融合度量空间理论、跨模态子空间表征与自监督掩码重建的创新框架。通过整数线性规划(Integer Linear Programming)和匈牙利算法(Hungarian Algorithm)实现特征对齐,有效解决了多模态数据分布不一致与表征异构问题,显著提升了在异步干扰下的检测鲁棒性(Robustness)与泛化能力。
Highlight
我们的方法在音视频同步与异步场景下均显著优于基线模型,并展现出对未知干扰的强鲁棒性。
Theoretical Analysis
基于度量空间(Metric Space)中的开球理论(Open Ball Theory),我们系统分析了音视频同步与异步场景下联合特征分布的变化机制。研究表明,音视频异步会导致模态间关联丢失,引发联合特征分布的显著偏移,从而 destabilize 分类决策边界并降低检测模型的泛化能力。
Proposed Method
我们设计了一种融合分层跨模态语义相似性的多模态子空间表征模块,以解决音视频数据分布不一致与表征异构问题。进一步将音视频特征对齐问题建模为整数线性规划(ILP)任务,并采用匈牙利算法(Hungarian Algorithm)重建缺失的跨模态关联。此外,引入自监督掩码重建机制(Self-Supervised Masked Reconstruction)恢复缺失特征,并通过构建联合相关性矩阵(Joint Correlation Matrix)增强跨模态依赖建模。
Experiment
实验从多角度评估方法有效性,包括不同时间偏移场景下的检测性能、各模块贡献度分析、参数敏感性及对未知扰动的鲁棒性。具体探讨以下问题:
在音视频异步场景下,本方法相较于现有主流方法的性能表现;
如何量化评估各模块对整体性能的贡献。
Conclusion
本文提出的方法通过整数线性规划与自监督特征重建机制,在音视频异步条件下保持高检测鲁棒性,为跨模态深度伪造检测提供了创新解决方案。
生物通微信公众号
知名企业招聘