
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向音视频异步场景的深度伪造检测:基于预测性跨模态对齐与特征重构的创新方法
【字体: 大 中 小 】 时间:2025年09月15日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4
编辑推荐:
本文针对音视频异步(audio-visual asynchrony)场景下的深度伪造(deepfake)检测难题,提出了一种融合跨模态语义相似性分层建模与整数线性规划(integer linear programming)对齐的创新框架。通过自监督掩码重构(self-supervised masked reconstruction)机制恢复缺失特征,显著提升了在网络抖动等扰动下的检测鲁棒性,为多模态伪造内容的安全防御提供了新思路。
Highlight
基于度量空间开球理论(open ball theory),我们分析了音视频同步与异步场景下联合特征分布的变化机制,揭示了异步性对检测性能的负面影响——导致跨模态关联缺失和分类决策边界失稳。
Proposed Method
我们设计的多模态子空间表征模块整合了分层跨模态语义相似性,解决了音视频数据分布不一致与表征异构性问题。进一步将特征对齐问题形式化为整数线性规划(ILP)任务,采用匈牙利算法(Hungarian algorithm)重建缺失的跨模态关联,并通过自监督掩码重构机制恢复特征完整性。最终通过联合相关性矩阵增强跨模态依赖建模。
Experiment
实验从多维度验证方法有效性:在不同时间偏移场景下对比主流方法,验证组件贡献度,分析参数敏感性,并测试对未知扰动的鲁棒性。结果表明,本方法在同步/异步场景下均优于基线模型,且对未知干扰表现出显著稳定性。
Conclusion
本研究提出的音频-视觉模态对齐与特征重构框架,有效提升了音视频异步环境下深度伪造检测的鲁棒性,为跨模态伪造内容的安全治理提供了理论与实践支撑。
生物通微信公众号
知名企业招聘