
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于预训练大语言模型的文本匿名化比较分析与优化:隐私保护与数据效用的平衡之道
【字体: 大 中 小 】 时间:2025年08月25日 来源:Expert Systems with Applications 7.5
编辑推荐:
本研究针对文本数据匿名化中隐私保护与数据效用的平衡难题,系统评估了基于大语言模型(LLM)的匿名化方法,提出创新提示设计框架,实验证明LLM方法显著优于传统NER(命名实体识别)和PPDP(隐私保护数据发布)技术,为GDPR合规数据发布提供了自动化解决方案。
在数字化时代,文本数据已成为医疗、公共管理等领域的重要资源,但其中蕴含的个人敏感信息面临泄露风险。欧盟《通用数据保护条例》(GDPR)要求数据发布前必须匿名化处理,然而传统基于命名实体识别(NER)的方法存在明显缺陷——仅能识别有限类型的实体,却忽略了非实体类准标识符(如"教练"、"2004年奥运会"等描述性信息)。更严峻的是,当前评估体系依赖人工标注,既成本高昂又存在主观偏差。
为突破这些瓶颈,Benet Manzanares-Salor和David Sánchez在《Expert Systems with Applications》发表研究,首次构建了不依赖人工标注的自动化评估框架,系统比较了LLM与传统方法的性能。研究团队创新性地设计了集成三大优势的提示模板:通过单样本(one-shot)示例明确任务要求、突破NER局限检测全属性、强制JSON格式输出确保解析可靠性。实验采用553篇维基百科人物传记摘要作为基准数据集,以文本重识别攻击(TRIA)和文本信息保留量(TPI)分别量化隐私风险和效用损失。
关键技术方法包括:1)基于distilbert-base-uncased模型构建TRIA攻击模拟最坏场景;2)利用BERT语言模型通过交替掩码预测计算信息量(IC);3)选用GPT-3.5-Turbo至GPT-4o三级模型评估性能扩展性;4)对比spaCy NER、Microsoft Presidio等6类基线方法。
研究结果揭示:
• 性能比较:LLM方法全面占据帕累托前沿,最优提示(本文方案)在GPT-4o上实现6%重识别风险(TRIR),较传统NER方法降低30%,同时保留87%原始信息(TPI)。
• 人工标注局限:人工匿名化表现意外逊色(TRIR=35%),证实其不宜作为评估金标准。
• 计算效率:完整提示平均消耗491令牌,但GPT-4o-mini展现最优性价比,生成令牌数减少20%且质量更优。
• 消融实验:移除"非NER限制"指令导致TRIR上升5%,证实提示设计对克服模型固有偏置的关键作用。
这项研究确立了LLM作为文本匿名化新范式的地位:其上下文理解能力可识别传统方法遗漏的准标识符(如职业、事件关联词),而自动化评估框架解决了长期依赖主观标注的困境。值得注意的是,研究者指出当前方案仍存在两大挑战:缺乏形式化隐私保证(如k-匿名性),以及提示工程的经验性特质可能影响结果稳定性。未来工作将探索结合差分隐私的混合架构,并在多语言长文本等复杂场景中验证通用性。该成果为医疗数据共享、社交媒体分析等需平衡隐私与效用的场景提供了切实可行的技术路径。
生物通微信公众号
知名企业招聘