
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器遗忘与神经剪枝的手写文本识别隐私保护方法研究
【字体: 大 中 小 】 时间:2025年09月10日 来源:Pattern Recognition 7.6
编辑推荐:
为解决手写文本识别(HTR)中用户可识别特征带来的隐私风险,研究人员提出了一种结合神经剪枝与机器遗忘的两阶段框架。通过引入Writer-ID Confusion(WIC)方法,在保持文本识别精度的同时有效消除用户笔迹特征,实现了GDPR要求的"被遗忘权"。该研究在IAM和CVL数据集上验证了方法的有效性,为文档分析领域的隐私保护提供了新思路。
随着数字化进程加速,手写文本识别(Handwritten Text Recognition, HTR)技术在历史档案数字化、智能表单处理等领域发挥重要作用。然而,每个人独特的书写风格如同指纹般具有生物特征识别性,这使得HTR系统在采集处理数据时面临严峻的隐私挑战。欧盟《通用数据保护条例》(GDPR)中"被遗忘权"条款要求,当用户提出删除请求时,系统必须彻底消除其个人数据的影响。传统解决方案需要完全重新训练模型,对于大型HTR系统将产生难以承受的计算成本。
来自西班牙巴塞罗那自治大学计算机视觉中心的Lei Kang团队在《Pattern Recognition》发表研究,创新性地将机器遗忘(Machine Unlearning)技术引入HTR领域。研究人员首先构建了基于Transformer的编码器-分类器双任务基线模型,通过添加笔迹风格分类头来监控用户特征记忆程度。随后开发的两阶段框架中,第一阶段采用神经剪枝技术选择性消除与遗忘集相关的神经元;第二阶段提出Writer-ID Confusion(WIC)方法,强制模型对遗忘集的作者身份预测呈均匀分布。实验采用字符错误率(CER)、词错误率(WER)和成员推理攻击(MIA)等指标,在IAM和CVL数据集上验证了方法的有效性。
关键技术包括:(1)构建多任务Transformer架构,同时处理文本识别和作者分类;(2)基于激活值比率的神经剪枝算法,定位并剪除敏感神经元;(3)WIC损失函数设计,结合KL散度实现选择性遗忘;(4)采用成员推理攻击量化隐私泄露风险。实验使用IAM数据集的40,977个训练单词和CVL数据集的99,904个样本进行评估。
3.1 问题建模
研究将数据集D={X,W,Y}划分为保留集Dretain和遗忘集Dforget,其中X为手写图像,W为作者ID,Y为转录文本。通过分析模型在两组数据上的表现差异,量化隐私泄露程度。
3.4 多头基线模型
创新性地引入[CLS]标记和作者分类头Hw,使模型能同时输出文本Yocr=Hr(F't)和作者ID Ywid=Hw(F't)。实验显示基线模型对遗忘集的作者分类准确率达100%,证实HTR模型确实记忆了用户特征。
3.5 神经剪枝阶段
通过重要性评分公式(1)定位敏感神经元,实验发现浅层自注意力模块包含最多用户特征信息。采用分层剪枝策略:嵌入层40%、浅层自注意力20%、中层40%、深层20%,使模型稀疏度达17.45%时,遗忘集作者识别准确率从100%降至20.03%。
3.6.5 WIC方法
提出的WIC损失函数(8)包含两项:对保留集维持标准交叉熵损失,对遗忘集施加KL散度约束使其作者预测趋近均匀分布。当λ=0.4时,仅用2,000次迭代就使遗忘集作者识别准确率降为0%,同时保留集CER仅上升0.5%。
4.6 实验结果
在IAM数据集上,WIC方法取得最佳平衡:遗忘集WER仅1.35%,显著优于Fisher Forgetting(9.77%)和DELETE(11.16%)。MIA攻击成功率降至48%,接近随机猜测水平。CVL数据集验证显示,WIC在4,000次迭代内完成遗忘,GPU内存消耗保持在16.4GB。
该研究开创性地解决了HTR领域的隐私保护难题,提出的两阶段框架具有三大创新点:首先,神经剪枝策略为模型压缩与隐私保护提供了新思路;其次,WIC方法实现了精准的选择性遗忘;最后,多任务架构设计可扩展至其他生物特征识别场景。这项工作不仅满足了GDPR合规要求,更为医疗文书处理、法律档案数字化等敏感场景的HTR应用铺平了道路。未来研究可进一步探索该方法在跨语言手写识别和文档视觉问答(DocVQA)系统中的应用潜力。
生物通微信公众号
知名企业招聘