《审视“影子”:检测大型语言模型中共享训练数据的方法综述》
《ACM Computing Surveys》:Auditing the Shadows: A Review of Methods to Detect Shared Training Data in Large Language Models
【字体:
大
中
小
】
时间:2025年11月07日
来源:ACM Computing Surveys
编辑推荐:
本文系统研究大语言模型(LLMs)训练数据共享检测方法,提出包含词汇语义重叠、记忆分析、时间对齐、对抗脆弱关联和合成指纹五种方法分类,指出现有方法存在孤岛化、评估标准不统一及伦理风险研究不足等问题,并建立审计技术分类框架和实证研究案例。
摘要
大型语言模型(LLMs)通常在未公开的数据上进行训练。这种做法加剧了关于透明度、版权合规性和可重复性的争论。从这一视角出发,本文系统地回顾了用于检测不同LLMs之间共享训练数据的方法。具体而言,我们的回顾涵盖了五种方法论:1)词汇/语义重叠指标,这些指标可以比较输出内容的相似性,但在知识收敛性方面存在不足;2)记忆分析,该方法可以识别对罕见训练例子的逐字重复,但存在提取受版权保护内容的风险;3)通过利用模型的知识截止点来推断共享数据的时间线;4)对抗性敏感性相关性分析,用于测量在攻击下模型共同的故障模式;5)合成指纹识别,通过在训练数据中嵌入可检测的标记来进行分析。我们的回顾揭示了几个关键问题:现有方法之间存在严重的孤立现象,跨社区交流较少,评估结果存在不一致性,且伦理风险研究不足,可能违反数据隐私法规。我们提出了一种审计技术的分类体系,并展示了如何应用该方法,同时通过一个案例研究来证明其有效性。最后,本文指出了一个尚未充分探索的知识空白,并为未来的研究方向制定了路线图。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号