为了维持大型语言模型并使其优于以前的版本,它需要人类创作的内容
Google和OpenAI并不避讳承认,为了让Bard和ChatGPT做得更好,他们需要你的数据。最近,《卫报》发表了一篇报道,Google在报道中表示,应该修改版权法,允许生成式人工智能系统抓取互联网内容。
该公司敦促澳大利亚政策制定者支持“能够适当和公平地使用受版权保护的内容的版权制度,以便在广泛和多样化的数据上对澳大利亚的人工智能模型进行培训”,同时还为那些不愿意将其数据用于人工智能培训的实体提供退出的选项。
另一方面,在关于未经同意抓取网页的争论中,OpenAI推出了自动网站爬虫GPTBot。该机器人可以收集可公开访问的数据来训练人工智能模型,OpenAI保证将以透明和负责任的方式执行这一过程。
随着生成式人工智能越来越受欢迎,对数据的需求量也越来越大。基于大型语言模型的聊天机器人ChatGPT和Google Bard依赖于大量文本、图像和视频。
OpenAI表示,GPT-4会从经过批准、整理并向公众开放的各种数据源中学习,其中也可能包括任何人都能看到的公开信息。OpenAI最近获得了GPT-5的商标,其能否成功除了取决于GPU的计算能力外,还与训练数据的质量有关。
然而,OpenAI和Google的可获得的数据仍然存在不确定性,这是因为人们普遍意识到它们的互联网抓取行为,而这一问题正引起公众的强烈反对。
要维持大型语言模型并使其优于之前的版本,就需要人类内容。这里的问题在于,公司是应该为这些内容付费,还是干脆从互联网上获取这些内容。从目前的情况来看,如果未来人类生成的内容被高价出售,也不足为奇。
OpenAI并非只在人类内容上训练GPT-4,它最近就开始在ChatGPT创建的数据集上训练GPT-4。不过,这种训练不能持续太久,因为最终会导致模型崩溃。当模型从其他模型生成的数据中学习时,就会出现这种退化过程。因此,真实数据分布的准确性会逐渐下降。
任何尝试用ChatGPT写诗的人都很容易发现,它是在最高级别的诗集和散文中训练出来的。但遗憾的是,OpenAI并没有征得作者的同意。
上个月,包括Margaret Atwood、Viet Thanh Nguyen和Philip Pu大型语言模型an在内的8000名作家签署了一份请愿书,呼吁人工智能公司停止未经同意或未经授权使用作家作品的行为。他们认为,任何艺术形式背后的辛勤工作都需要得到认可,并应归功于相关创作者。
然而,当涉及到人工智能作品的版权时,就出现了所有权问题。通常情况下,《版权法》将最初的所有权归属于作品的创作者。但是,由于尚未有任何关于人工智能创作的法律或版权局裁决,因此仍然不确定谁是真正的创作者。
目前,OpenAI和Google都在稳妥行事。他们已将共享数据的责任转移给了创作者。Google表示,创作者应该能够选择不让生成式人工智能使用他们的作品。Google发言人指出,他们希望围绕创建一个社区开发的标准展开讨论,该标准将类似于robots.txt系统,使创作者能够选择退出被他们抓取的部分网站。
同样,OpenAI在一篇博文中提到,如果你不想让GPTBot访问你的网站,你可以通过在网站的robots.txt文件中添加GPTBot来阻止它。这意味着网站所有者需要主动采取措施阻止OpenAI访问他们的网站,而不是选择让他们使用自己的内容进行培训。这是OpenAI让互联网上的人们选择不将其信息用于训练其大型语言模型的第一步。
问题是:这种做法正确吗?值得注意的是,用户最初被默认为加入状态,需要自行设置为退出状态。这可能是由于大型语言模型的创建者可能会发现,说服个人放弃隐私权具有挑战性。
此外,OpenAI还采取了一些措施来避免法律纠纷,比如最近与美联社合作,获取可以自由用于培训他们的模型的实时数据。通过这样做,他们确保可以获得一个庞大而多样化的数据集,而不会侵犯版权法或面临潜在的法律问题。
与这些公司争夺赔偿可能不会有任何结果,因为没有适当的法律支持,而且耗时耗钱。因此,如果你依赖ChatGPT或Bard来完成撰写电子邮件或编码等任务,那么你所面临的代价就是牺牲自己的数据。