编辑推荐:
为应对每年超千万的儿童性虐待(CSA)报告及人工处理困境,研究人员开展 CSAI 室内场景分类研究。利用自监督学习模型,在室内场景分类中达 71.6% 平衡准确率,优于全监督模型,且评估显示公开场景数据集与敏感材料特征存在差异。
互联网的普及让数字空间成为犯罪温床,儿童性虐待材料(CSAM)的传播尤为触目惊心。美国国家失踪与受虐儿童中心(NCMEC)数据显示,2022 年美国疑似 CSAM 报告达 3200 万例,超 80% 源自网络。面对海量数据,执法部门难以通过人工高效筛查,而传统基于哈希的检测方法(如 PhotoDNA)仅能识别已知内容,无法应对每日新增的新型材料。现有视觉检测方法多聚焦年龄估计和裸体检测,但场景环境等线索尚未被充分挖掘。在此背景下,巴西联邦警察与研究团队合作,探索通过自监督学习(SSL)实现儿童性虐待图像(CSAI)的室内场景分类,旨在开发无需直接接触敏感数据的自动化工具,为案件筛查提供新维度。
巴西研究团队开展了相关研究,论文发表在《Forensic Science International: Digital Investigation》。
研究采用的关键技术方法包括:
- 数据集构建:基于执法部门指导创建 Places8 数据集,模拟 CSAI 场景特征,并设计新的类别划分用于模型训练与调参;
- 自监督模型训练:对比 SwAV、SimCLR、Barlow Twins、SupCon 四种 SSL 方法,在场景中心数据集上预训练模型;
- 实验设计:通过 5 折交叉验证评估模型性能,利用贝叶斯估计(BEST)替代传统 t 检验进行结果分析,并在真实 CSAI 数据上验证模型泛化能力。
模型性能与场景分类结果
在室内场景分类任务中,基于场景中心数据预训练的自监督深度学习模型实现 71.6% 的平衡准确率,平均比全监督模型高出 2.2 个百分点。研究发现,仅在物体中心数据集(如 ImageNet)上进行自监督训练的模型,其知识难以有效迁移至场景中心任务,而结合场景与物体数据的自监督训练可提升性能。此外,引入合成场景数据(Indoors.all)未显著改善结果,表明真实场景数据的重要性。
真实 CSAI 数据验证与域差距分析
通过与巴西联邦警察合作,研究团队在真实 CSAI 数据上测试模型。结果显示,公开场景数据集(如 Places)与敏感材料中的场景特征存在显著差异。尽管模型在部分常见室内场景(如卧室、浴室)分类中表现尚可,但整体泛化能力受限,反映出公开数据与真实犯罪场景之间的域差距问题。
研究结论与未来方向
本研究首次将室内场景分类引入 CSAI 检测领域,证明自监督学习在无需敏感数据训练的前提下,可通过场景特征实现 CSAI 的有效分组与筛查,为执法部门提供了新型辅助工具。然而,公开数据集与真实 CSAI 的场景差异表明,需进一步优化模型对复杂场景(如包含人物元素)的表征能力。未来研究可探索融合物体检测、人体部位分析等多维度特征,构建更全面的 CSAI 检测框架,同时需在合规前提下扩大真实场景数据的获取渠道,以提升模型的实用性与准确性。
该研究不仅拓展了 CSAI 自动化检测的技术路径,也为跨领域利用自监督学习解决敏感数据难题提供了方法论参考,对全球打击儿童性虐待犯罪的数字化警务合作具有重要推动意义。