面向音视频异步场景的深度伪造检测:基于预测性跨模态对齐与特征重构的创新方法

【字体: 时间:2025年09月15日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4

编辑推荐:

  本文针对音视频异步(audio-visual asynchrony)场景下的深度伪造(deepfake)检测难题,提出了一种融合跨模态语义相似性分层建模与整数线性规划(integer linear programming)对齐的创新框架。通过自监督掩码重构(self-supervised masked reconstruction)机制恢复缺失特征,显著提升了在网络抖动等扰动下的检测鲁棒性,为多模态伪造内容的安全防御提供了新思路。

  

Highlight

基于度量空间开球理论(open ball theory),我们分析了音视频同步与异步场景下联合特征分布的变化机制,揭示了异步性对检测性能的负面影响——导致跨模态关联缺失和分类决策边界失稳。

Proposed Method

我们设计的多模态子空间表征模块整合了分层跨模态语义相似性,解决了音视频数据分布不一致与表征异构性问题。进一步将特征对齐问题形式化为整数线性规划(ILP)任务,采用匈牙利算法(Hungarian algorithm)重建缺失的跨模态关联,并通过自监督掩码重构机制恢复特征完整性。最终通过联合相关性矩阵增强跨模态依赖建模。

Experiment

实验从多维度验证方法有效性:在不同时间偏移场景下对比主流方法,验证组件贡献度,分析参数敏感性,并测试对未知扰动的鲁棒性。结果表明,本方法在同步/异步场景下均优于基线模型,且对未知干扰表现出显著稳定性。

Conclusion

本研究提出的音频-视觉模态对齐与特征重构框架,有效提升了音视频异步环境下深度伪造检测的鲁棒性,为跨模态伪造内容的安全治理提供了理论与实践支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号