据报道,WordPress和Tumblr的母公司Automattic正在与MidJourney和OpenAI等AI公司就将其平台上的内容用于训练目的进行谈判。虽然该交易的细节仍然尚不清楚,但Automattic试图向用户保证他们可以随时选择退出。
报道称,Automattic内部存在冲突,因为一些被抓取用于AI公司的内容包括了公司不打算保存的私人内容。更令事情复杂化的是,一些甚至不属于Automattic的广告内容,包括来自旧版Apple Music活动的广告,也进入了训练数据集。
Automattic的计划在内部引起了很大的争议,以至于一名产品经理甚至从Tumblr上撤下自己的照片,以确保它们不会被用于训练AI。
自OpenAI于2022年底首次推出ChatGPT以来,生成式AI已成为一项大业务,随后多家公司推出了文本提示图像创作者。这项技术的工作原理是通过在大量数据上进行“训练”来生成看似原创的视频、图像或文本。但主要出版商对此表示抱怨,一些出版商甚至提起诉讼,称用于训练这些系统的许多数据要么是盗版的,要么不符合现有版权制度下的“合理使用”。
Automattic计划最早于本周三引入一项新设置,让用户可以选择不参与AI系统的训练,但尚不清楚该设置对于大多数用户是默认开启还是关闭。WordPress的竞争对手Squarespace去年也推出了类似的设置,让用户可以选择不允许其数据用于训练AI。
“AI正在迅速改变我们世界的几乎每个方面,包括我们创建和消费内容的方式。在Automattic,我们一直相信自由、开放的网络和个人选择。与其他科技公司一样,我们密切关注这些进步,包括如何与AI公司以尊重用户偏好的方式进行合作,”其博客文章写道。
但这篇冗长的声明听起来非常有防御性,它指出“没有法律规定爬虫必须遵循这些偏好”,并暗示该公司只是在遵循行业最佳实践,为用户提供决定是否希望其内容用于训练AI的选项。
“无论地理位置如何,我们都想为您提供尽可能多的控制工具。由于值得尊敬的公司确实遵循这些设置,因此它们是执行网络内容抓取方式的最佳方法,”Automattic的声明写道。
“我们的合作伙伴关系将尊重所有选择不参与的设置。我们还计划更进一步,定期向合作伙伴更新新选择不参与的用户,并要求他们从过去的来源和未来的训练中删除其内容。”