一篇新的研究论文声称,大型语言模型可能在无意中通过一种研究人员称之为“可提取记忆”的技术暴露了大量的训练数据。
该论文详细介绍了研究人员如何开发方法,从几种流行的开源自然语言模型的训练集中提取高达数千兆字节文本数据量,包括Anthropic、EleutherAI、Google、OpenAI等公司的模型。Google Brain的高级研究科学家、CornellCIS和前普林斯顿大学的Katherine Lee在Twitter上解释说,以前的数据提取技术无法对OpenAI的聊天型模型起作用:
当我们对ChatGPT运行相同的攻击时,看起来几乎没有任何记忆,因为ChatGPT已经被“调整”为表现得像一个聊天模型。但通过运行我们的新攻击,我们可以使其比我们研究的任何其他模型都多3倍的概率输出训练数据。
核心技术涉及提示模型继续随机文本片段序列,并检查生成的延续是否包含来自公开可用数据集的逐字段落,这些数据集总计超过9TB的文本。
通过这种策略,他们从像Pythia和GPT-Neo这样的小型模型中提取了100万个独特的50+token的训练示例。从具有1750亿参数的庞大OPT-175B模型中,他们提取了超过100000个训练示例。
更令人担忧的是,这项技术还被证明高效地提取了Anthropic的Claude和OpenAI领先行业的ChatGPT等商业部署系统的训练数据,这表明即使在这些被广泛使用的生产系统中也可能存在问题。
通过提示ChatGPT重复单个词汇词像“the”数百次,研究者展示了他们如何使模型“偏离”其标准的对话输出,并发出更典型的文本续写,类似于其原始训练分布——完整的逐字通篇分布。
一些AI模型寻求通过加密保护训练数据
尽管像Anthropic和OpenAI这样的公司希望通过数据过滤、加密和模型对齐等技术来保护训练数据,但这些发现表明,可能需要更多的工作来减轻研究人员所称的由大参数量基础模型引发的隐私风险。尽管如此,研究人员不仅将记忆作为隐私合规的问题,而且还提出它是模型效率问题,暗示记忆使用了大量可以分配给效用的模型容量。