在2023年,Meta遭遇了一起版权侵权诉讼,而周三(1月8日)公布的一份新文件又揭露了更多令人震惊的指控,或将使该公司及其首席执行官马克·扎克伯格再次陷入尴尬境地。这起诉讼的原告团体声称,Meta在未经许可的情况下,使用了包括受版权保护的图书和文章在内的盗版内容,来训练其Llama AI模型,且这一行为可能是在马克·扎克伯格知情的情况下进行的。
争端始于2023年,当时一群作家起诉了这家社交媒体巨头,指责其未经同意或批准,擅自使用他们的受版权保护的图书和文章来训练其庞大的语言模型Llama。著名作家和记者塔内西西·科茨、喜剧演员和女演员萨拉·西尔弗曼等人均为原告之一。
然而,在2023年11月,美国加利福尼亚北区地区法官文斯·查布里亚驳回了针对Meta的AI版权诉讼。法院认为,虽然Meta的聊天机器人生成的文本侵犯了作者的版权,但Meta关于非法剥离图书版权管理信息(CMI)的主张无效。
但此事并未就此结束。最近,作家们向美国加利福尼亚北区地区法院提交了一份更新的诉状请求。在新的提交文件中,他们声称Meta在发现过程中提供的内部文件显示,该公司意识到用于AI训练的内容是盗版的。此外,他们还暗示有新证据表明,Meta使用了一个名为LibGen的数据集,该数据集被认为包含数百万份盗版作品。更令人震惊的是,他们指责Meta通过点对点的种子下载方式分发了这个数据集,这是一种在用户之间直接共享文件而无需中央服务器的方法。
原告方现在引用Meta的内部沟通记录,声称马克·扎克伯格完全了解这种情况,并且在知道其中包含盗版内容的情况下,仍然批准了使用LibGen数据集。LibGen作为一个“链接聚合器”,主要提供来自麦克米兰学习(Macmillan Learning)、麦格劳希尔(McGraw Hill)和Cengage Learning等主要出版商的受版权保护材料的访问,并长期面临侵犯版权的诉讼和罚款。
在这份新提交的文件中,还强调了另一个重要的指控:Meta可能试图通过从所使用的LibGen数据中删除信用或归属信息来掩盖其所谓的侵权行为。
尽管Meta一直否认非法使用内容来训练其语言模型,但截至目前,该公司尚未就作家们的最新提交发表任何官方声明。近期,Meta及其旗下的Facebook、Instagram、WhatsApp和Threads还因其内容审查政策的变更而陷入麻烦。根据最新的政策更新,由马克·扎克伯格领导的公司决定“摆脱事实核查人员”,并将他们替换为类似于X的社区说明。