人工智能的双刃剑:在版权和记忆之间的平衡术

2024年01月04日 由 samoyed 发表 188 0

纽约时报与OpenAI近期围绕AI模型版权的法律冲突将“记忆”或“剽窃”这两个词推到了风口浪尖。一个与AI更紧密相关的术语是“近似检索”,这可能就是OpenAI赢得案件所需要的全部。


technology-5254039_1280


亚利桑那州立大学教授Subbarao Kambhampati在播客中谈到ChatGPT以及从中收到的信息无法准确重复时说:它就像一种人工智能牙膏,里面有人类所有的智慧和知识,无论需要什么,都可以以方便的形式挤出。


LLM就像牙膏


LLM“并不是完全重复现有的信息,而是将它们包含在答案之中”,他补充道。


近似检索的核心在于,LLM并不符合重视精确匹配和精确度的传统数据库的模式。相反,它们作为n-gram模型运作,为检索过程带来不确定性元素。提示并不是作为进入结构化数据库的钥匙,而是作为模型基于上下文生成下一个标记的线索。


Kambhampati在最近的LinkedIn帖子中解释说,对于围绕纽约时报诉讼的法律讨论来说,这种区别变得至关重要。LLM并不承诺精确检索,模糊了灵活性和不可预见性之间的界限。它们存在于一个既不纯粹是数据库也不是传统信息检索(IR)引擎的空间,让人们不得不让人们重新审视它们的特性。


在更好的AI模型与适当的版权归属之间权衡


诉讼本身围绕着记忆化这一微妙问题。尽管LLM无法保证逐字再现,但它们广泛的上下文窗口和强大的网络容量打开了潜在记忆化的大门,引发了关于无意抄袭的担忧。在该诉讼中,如果多次提示,它就能生成完全相同的句子。


为了将“思考”能力植入LLM,研发者尝试对LLM进行微调以处理规划问题,仅将任务转化为基于记忆的检索,减少其自主性。但这也伴随着增加LLM的上下文长度,使记忆化问题变得更糟。向LLM提示也引发了关于人在循环中方法可靠性的担忧。


总之,商业LLM创建者如OpenAI往往根据不同的场合而改变他们的说法。


在法律讨论中,他们可以强调模型无法实现精确检索的能力,将其作为针对版权侵犯的一种辩护方式。同时,当他们将LLM推广为搜索应用时,他们强调记忆化能力是一项特征。


最终目标是什么?


事实上,没有万全之策来控制这些双重行为。试图遏制记忆化可能会损害“LLM作为搜索引擎替代品”的能力,使我们处于一个困惑的两难境地:使AI模型变得更好还是关心版权。


例如,一个在X上的用户指出,“特别是在新闻生成上,有一个困境:如果LLM太有创意,它会产生假新闻或至少是不准确的新闻;否则,版权问题就会出现。无论怎样都有问题。”


另一个用户指出,基于扩散模型的AI图像生成器,如Midjourney、Stable Diffusion和DALL-E,也存在同样的情况,它们并不是要生成相同的图像,但最终创造出非常相似的输出。这些模型越是变得更好,它们生成的图像就越接近用户的提示,而不是为了避免版权的内在需要。


检索增强型生成(RAG)趋势的出现引入了一个外部IR组件,试图将其与采用更结构化方式进行信息检索的LLM结合。希望通过这种方式在LLM的自发性和传统搜索方法的有序性之间找到平衡点,来减少这些模型中的幻觉。


但Kambhampati解释说,这增加了像GPT-4这样的LLM从纽约时报等来源检索确切信息的可能性,这些来源基本上被添加为模型上的矢量数据库。这正是RAG的设计初衷,但在版权问题上,这与AI模型创造者背道而驰。


“因为n-gram模型的工作方式,永远没有任何100%的保证某个存储的记录(无论是程序还是纽约时报的文章)会被毫无改动地检索出来。那么纽约时报为什么起诉OpenAI呢?”Kambhampati问道。案件的关键在于基础训练数据集实际上是否包含了纽约时报的文章,显然是包含了的,以及OpenAI的模型是否真的对出版物的收入造成了影响。


如果LLM的制造商试图减少“记忆化”,他们必然会发现LLM作为搜索引擎的伪装能力,“本来就相当值得怀疑的真实性,会进一步退化”,Kambhampati总结道。

文章来源:https://analyticsindiamag.com/llms-are-just-like-toothpaste/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消