AI公司必胜的版权之争
2023年07月28日 由 Camellia 发表
97353
0
上周,超过8000名发表过作品的作者给生成式AI平台的创始人写了一封公开信。他们将这封信寄给了大型技术公司的首席执行官,呼吁公平补偿,因为这些公司使用他们的受版权保护作品来训练自己的模型。
这场冲突是困扰AI发展的又一知识产权问题。在另一个有趣的案例中,加利福尼亚北区的一位美国地区法官驳回了一群艺术家提起的大部分诉讼。他要求Stability AI的相关源代码提供更多关于所谓版权侵权的证据。
问题所在
版权定义的问题并非随着生成式AI而产生。历史上,随着任何新技术的出现,版权法律都会进行大规模修订。
对于生成式AI,加州大学伯克利分校法律与信息学首席学者Pamela Samuelson教授提出了三个关键问题。首先,使用作品作为生成式AI系统的训练数据是否侵犯版权。其次,何时AI生成的输出构成侵权衍生作品,以及谁拥有计算机程序的版权和输出,这些程序是受版权保护的对象吗?最后,现在谁拥有这个版权?
这些问题解决了围绕生成式AI的基本法律和伦理复杂性,影响着原创作者的权益和基于AI的创新的扩展领域。
AI VS 艺术家
2006年1月,法院裁定,出于索引内容目的,搜索引擎复制互联网上受版权保护作品的行为属于合理使用而非侵权行为。Field诉谷歌的官司很重要,因为法院认为,将研究图书馆中数百万本受版权保护的书籍数字化,并在回复搜索查询和其他计算使用时提供摘录属于合理使用。
谷歌并没有利用这些作品的表达方式,而是当被问及时,它给你一份作品的大意。Stability AI和其他被告使用这些案例称之为“合理使用”,因为出于培训目的从互联网爬取内容以制作副本实际上是合理使用而非侵权行为。
“我们认为这些大型科技公司正在准备他们能够使用的更大数据集,”加拿大组织的执行董事John Degen说道。“我们是正确的。”实际上,为了方便人们找到版权所有者的作品和为训练数据摄取受版权保护的材料之间是有区别的。人工创建的图像或文本与原始数据竞争,内容的作者并没有同意这样做。
根据那封公开信,他们认为应该得到合理补偿是公平的。因为摄取的材料的价值是使生成式AI得出出色结果的原因。从这个角度看,该论点非常有说服力。否则,生成式AI系统将会产生垃圾。根据这种观点,精心策划的著作是应该有人为之付费的。
如果版权法只关心保护作品中的原始表达方式。那应该是一个因素,因为将作品做为训练数据的人并不会从表达方式方面考虑它们。他们更多地从计算使用和文本数据挖掘的角度来考虑它们,过去人们普遍认为这是合理使用。
生成式AI系统可以创作新作品,版权法的目的是促进科学(创作)的进步,创始人所指的是知识和实用技术。肯定可以说生成式AI系统推进了这一目的,合理使用为新创作提供了一点空间,这也可能涉及到是否摄取是合理使用的因素。
日本之路
今年4月,日本确认他们现有的法律允许使用从互联网上收集到的数据进行非商业和商业用途。日本并没有推出新政策,但从2018年起,版权持有者可以利用日本现有的文本和数据挖掘例外规定。从非法网站使用的内容会受到索赔、禁令和刑事处罚,但要证明语言模型确实在没有公司自己供认的情况下抓取了这些网站是很困难的。以色列也遵循类似原则,但有一些例外。不能使用特定数据集来训练AI模型以提取与原创作品非常相似的作品,例如不能用《权力的游戏》系列训练AI模型来生成非常相似的作品。
德国也站在技术一方,拒绝回应超过14万名作家和艺术家的担忧。政府认为没有必要加强监管。数字政策发言人Maximilian Funke Kaiser说:“出版商和媒体公司也从这项技术中受益,例如通过AI支持的文本生成。”
另一方面,欧盟要求部署生成式AI工具的公司公开用于开发其系统的任何受版权保护的材料。这是最基本的要求,并被认为是公平的,但正如我们前面提到的,证明这一点的过程是艰难且几乎不可能的。但根据Pamela Samuelson的说法,这符合版权法中的合理使用。在版权受保护且未创建衍生作品的材料上训练AI,并通过AI创作了非衍生的原创角色是可以的。
虽然你不能对动漫的风格进行版权保护,但独特的绘画风格和叙事方式完全属于原创作品,并不可能完全复制。那么,具体是哪些公司因侵犯版权而被起诉呢? 为什么让他们分享训练数据的细节如此困难呢?
来源:https://analyticsindiamag.com/the-copyright-tussle-ai-companies-are-sure-to-win/