OpenAI 声称“不可能”不使用版权材料训练AI模型

2024年01月12日 由 samoyed 发表 198 0

这应该是 OpenAI 针对多起版权侵权指控的积极防御,但并不是所有起诉这一公司的人都会以这种方式看待它。


OpenAI,这家站在网络最受欢迎的生成性 AI 模型背后的公司,对日益增多的版权侵权指控采取了一种有趣的立场。在提交给英国议会上议院通讯和数字选择委员会的一份书面证据中,OpenAI 表示,无法在不使用版权材料的情况下训练诸如 ChatGPT 之类的工具。


hero-image


通讯和数字选择委员会调查英国的公共政策与媒体、数字通讯和创意产业如何交集。一旦完成调查,委员会就会发布调查结果报告。然后这些报告可能成为英国政府更广泛政策变化的基础。在2023年7月,委员会启动了一个调查,以“审查大型语言模型,并分析接下来1-3年内需要做些什么以确保英国能够应对它们带来的机遇和风险。”这不可避免地最终关注于 OpenAI 的 ChatGPT 和 DALL-E。


除了分享其对大型语言模型(LLM)在接下来几年可能对社会造成的影响的看法,OpenAI 还利用其提交证据的机会为其在 ChatGPT 训练中使用版权材料进行辩护。“因为版权在今天涵盖几乎所有类型的人类表达——包括博客文章、照片、论坛帖子、软件代码片段和政府文件——因此无法在不使用版权材料的情况下训练当今领先的 AI 模型,”该文件写道。“仅将训练数据限制在一个多世纪前创作的公共领域的书籍和绘画上可能会产生一个有趣的实验,但不会提供满足今天公民对AI系统的需求。”


images-1.fill.size_732x750.v1704922974


OpenAI并没有将版权的近乎普遍性视为ChatGPT等平台可能不值得侵犯知识产权的标志,而是将这种普遍性作为一个临时的盾牌。多位原告指控 OpenAI 依赖其书面的版权作品训练 ChatGPT。《纽约时报》也因 OpenAI 未经许可转载其内容也起诉了 OpenAI。


通讯和数字选择委员会并不是一个法庭。尽管如此,其调查的结果也很容易影响英国和其他西方政府实体对生成式AI的看法和处理方式。OpenAI知道这一点,并且随着美国这边版权诉讼案件的堆积,它正在利用委员会的调查作为机会,提前应对任何版权问题。


OpenAI 还承认,“仍有工作要做,以支持和赋权创作者。”据报道,它正努力允许出版商阻止 GPTBot 爬取其网站内容,并允许摄影师及其他艺术家从未来的 DALL-E 训练集中排除他们的图像。

文章来源:https://www.extremetech.com/internet/openai-claims-its-impossible-to-train-ai-models-without-copyrighted-materials
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消