基于自监督学习的儿童性虐待图像场景分类研究

【字体: 时间:2025年05月16日 来源:Forensic Science International: Digital Investigation 2.0

编辑推荐:

  为应对每年超千万的儿童性虐待(CSA)报告及人工处理困境,研究人员开展 CSAI 室内场景分类研究。利用自监督学习模型,在室内场景分类中达 71.6% 平衡准确率,优于全监督模型,且评估显示公开场景数据集与敏感材料特征存在差异。

  
互联网的普及让数字空间成为犯罪温床,儿童性虐待材料(CSAM)的传播尤为触目惊心。美国国家失踪与受虐儿童中心(NCMEC)数据显示,2022 年美国疑似 CSAM 报告达 3200 万例,超 80% 源自网络。面对海量数据,执法部门难以通过人工高效筛查,而传统基于哈希的检测方法(如 PhotoDNA)仅能识别已知内容,无法应对每日新增的新型材料。现有视觉检测方法多聚焦年龄估计和裸体检测,但场景环境等线索尚未被充分挖掘。在此背景下,巴西联邦警察与研究团队合作,探索通过自监督学习(SSL)实现儿童性虐待图像(CSAI)的室内场景分类,旨在开发无需直接接触敏感数据的自动化工具,为案件筛查提供新维度。

巴西研究团队开展了相关研究,论文发表在《Forensic Science International: Digital Investigation》。

研究采用的关键技术方法包括:

  1. 数据集构建:基于执法部门指导创建 Places8 数据集,模拟 CSAI 场景特征,并设计新的类别划分用于模型训练与调参;
  2. 自监督模型训练:对比 SwAV、SimCLR、Barlow Twins、SupCon 四种 SSL 方法,在场景中心数据集上预训练模型;
  3. 实验设计:通过 5 折交叉验证评估模型性能,利用贝叶斯估计(BEST)替代传统 t 检验进行结果分析,并在真实 CSAI 数据上验证模型泛化能力。

模型性能与场景分类结果


在室内场景分类任务中,基于场景中心数据预训练的自监督深度学习模型实现 71.6% 的平衡准确率,平均比全监督模型高出 2.2 个百分点。研究发现,仅在物体中心数据集(如 ImageNet)上进行自监督训练的模型,其知识难以有效迁移至场景中心任务,而结合场景与物体数据的自监督训练可提升性能。此外,引入合成场景数据(Indoors.all)未显著改善结果,表明真实场景数据的重要性。

真实 CSAI 数据验证与域差距分析


通过与巴西联邦警察合作,研究团队在真实 CSAI 数据上测试模型。结果显示,公开场景数据集(如 Places)与敏感材料中的场景特征存在显著差异。尽管模型在部分常见室内场景(如卧室、浴室)分类中表现尚可,但整体泛化能力受限,反映出公开数据与真实犯罪场景之间的域差距问题。

研究结论与未来方向


本研究首次将室内场景分类引入 CSAI 检测领域,证明自监督学习在无需敏感数据训练的前提下,可通过场景特征实现 CSAI 的有效分组与筛查,为执法部门提供了新型辅助工具。然而,公开数据集与真实 CSAI 的场景差异表明,需进一步优化模型对复杂场景(如包含人物元素)的表征能力。未来研究可探索融合物体检测、人体部位分析等多维度特征,构建更全面的 CSAI 检测框架,同时需在合规前提下扩大真实场景数据的获取渠道,以提升模型的实用性与准确性。

该研究不仅拓展了 CSAI 自动化检测的技术路径,也为跨领域利用自监督学习解决敏感数据难题提供了方法论参考,对全球打击儿童性虐待犯罪的数字化警务合作具有重要推动意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号