面向印度人群的多模态多语言深度伪造数据集InDeepFake构建及其检测技术研究

【字体: 时间:2025年07月19日 来源:Pattern Recognition Letters 3.9

编辑推荐:

  针对印度地区深度伪造(Deepfake)犯罪激增且缺乏本土化数据集的问题,研究人员开发了首个覆盖7种印度主要语言的多模态音频-视频数据集InDeepFake,采用7种SOTA生成技术构建样本,包含189名印度受试者及200个名人视频。通过评估SOTA检测器性能,为印度特色的深度伪造检测研究奠定基础,对维护民主社会安全具有重要意义。

  

随着生成式AI技术的迅猛发展,深度伪造(Deepfake)技术已严重威胁数字内容的可信度。在印度这个拥有22种官方语言和多元民族特征的国家,深度伪造案件呈现爆发式增长——从金融诈骗、个人诽谤到选举政治宣传,仅2023年大选期间就出现大量伪造政客演讲视频。更严峻的是,现有深度伪造数据集主要基于英语人群,缺乏对印度语言特征和民族面部特征的覆盖,导致针对印度场景的检测器研发面临"无米之炊"的困境。

为此,印度科学和工程研究委员会(SERB)资助的研究团队开展了开创性工作。研究人员构建了首个面向印度人群的多模态深度伪造数据集InDeepFake,收录7种主要印度语言(英语、印地语、孟加拉语、泰卢固语、泰米尔语、旁遮普语和拉贾斯坦语)的400个原始视频,其中200个为实验室采集的高清视频,200个来自YouTube公开名人视频。采用7种最先进的深度伪造生成技术(包括FaceSwap、NeuralTextures等)构建对抗样本,特别注重保留印度特色的语音音素特征和面部生理特征。相关成果发表在《Pattern Recognition Letters》期刊。

关键技术包括:(1)多模态数据采集:使用iPhone XR/12采集1080p视频,同步记录音频;(2)跨语言深度伪造生成:针对不同语言调整语音克隆参数;(3)多维度标注:包含技术类型、语言、人口统计学特征等38种元数据;(4)检测基准测试:采用MesoNet、Xception等5种SOTA检测架构进行交叉验证。

【Proposed InDeepFake dataset】
研究团队构建的数据集包含三大创新:首先,语言覆盖上突破英语局限,特别收录带有印度口音的英语样本;其次,采用分层抽样确保年龄(18-65岁)、性别(男女比例1:1)和民族均衡;第三,首次对印度特有的面部特征(如南亚人种特有的眉弓形态)进行针对性建模。实验显示,传统检测器对印度语言深度伪造的识别准确率平均下降12.7%。

【Experiments and results】
在8:1:1划分的训练-验证-测试集上评估发现:(1)多模态检测(结合音频+视频)比单模态准确率提升15.3%;(2)针对印度语言的检测需特别关注爆破音/p?/与齿音/?/的声学特征;(3)Xception网络在跨语言检测中表现最优,平均AUC达0.91。与DFDC等国际数据集对比,InDeepFake的检测错误率高出23%,凸显地域适应性研究的必要性。

【Conclusion】
该研究填补了印度深度伪造研究的数据库空白,其创新价值体现在三方面:技术上,首次实现印度多语言深度伪造的系统性建模;应用上,为选举安全、金融反诈等场景提供定制化解决方案;方法论上,提出"语言-民族-技术"三维评估框架。研究团队已开源全部数据和代码,后续将扩展至更多方言和生成技术。

这项工作的深远意义在于:一方面为发展中国家应对深度伪造威胁提供范本,另一方面揭示当前检测技术对非英语语种的系统性偏差。随着2024年印度大选临近,该成果有望成为维护数字民主的重要技术屏障。研究也警示,需要建立跨国界的深度伪造研究协作网络,共同应对这一全球性挑战。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号