智能边缘计算中个人身份信息检测的鲁棒模型评估框架

【字体: 时间:2025年07月28日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  随着智能边缘计算的发展,图像中的个人身份信息(PII)检测面临数据质量不足和评估标准缺失的挑战。研究人员构建了PIIod数据集,开发了基于YOLOv5s/YOLO11s的轻量化检测模型,并提出cAP和PEAC两项新型评估指标,为移动端隐私保护提供了高精度、可解释的技术方案。

  

在社交媒体和智能设备爆发的时代,随手拍摄的图片可能暗藏姓名、车牌或医疗单据等个人身份信息(PII)。这些敏感数据一旦泄露,轻则遭遇骚扰电话,重则引发金融诈骗。尽管现有技术能识别文本类PII,但图像中的敏感信息检测仍面临两大难题:一是缺乏标注精细的专用数据集,二是传统评估指标无法反映PII检测的特殊性——毕竟把护照误判为普通卡片,与把普通卡片误判为护照,两者的风险等级天差地别。

针对这些痛点,研究人员在《Knowledge-Based Systems》发表的研究构建了完整的解决方案。他们首先从零打造了PIIod数据集,涵盖7大类敏感信息,包括生物特征、金融单据等现实场景中的高风险目标。基于该数据集,团队采用迁移学习(TL)技术优化了YOLOv5s和YOLO11s等轻量化模型,使其在手机端也能实现实时检测。更创新的是提出了cAP(定制化平均精度)和PEAC(基于定位精度与分类置信度的性能评估)两项指标,前者能细分错误类型的影响权重,后者则通过双重验证机制确保检测结果的可靠性。

关键技术方法包括:1) 基于现有PII分类数据集扩展标注边界框;2) 采用Transfer Learning训练轻量级YOLO系列模型;3) 设计融合定位精度与分类置信度的新型评估体系。实验选用Android平台部署模型,对比了YOLOv5s/YOLO11s与基准模型的性能差异。

【PII Object Detection】
突破传统分类思路,将PII检测转化为目标检测任务。研究表明,仅3.2%的图像区域包含敏感信息,全域分类会导致大量误报。

【The Overall System Design】
系统包含三大模块:数据集标注采用分层抽样策略确保类别平衡;模型训练引入动态学习率调整;评估模块集成cAP与PEAC形成双校验机制。

【Methodologies for Robust Model Evaluation】
cAP指标对"将医保卡误判为信用卡"等高风险错误施加3倍惩罚权重;PEAC要求预测框IoU>0.5且置信度>90%才判定为有效检测。

【Experiments and Result Evaluations】
YOLOv5s在车牌检测中达到92.3%的PEAC分数,比基准模型快17帧/秒。但医疗单据类识别仍是难点,误检率高达21%。

该研究的意义在于首次建立了面向边缘设备的PII检测全流程方案。特别是PEAC指标的设计,使得模型在自动驾驶等实时场景中,能自动过滤低置信度预测,避免过度警报。未来工作可探索联邦学习框架,在保护数据隐私的前提下进一步提升跨设备检测一致性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号