人工智能研究公司OpenAI宣布了一项新举措,旨在多样化和扩大用于训练AI模型的数据,这个计划被称为“数据伙伴关系”。通过该计划,OpenAI计划与第三方组织合作,为人工智能培训构建新的公共和私人数据集。
根据OpenAI的说法,这一计划的目标是通过将模型暴露在更广泛的数据中,以更好地反映不同的语言、文化和主题,来创建更公平、准确和有益的模型。当前的人工智能数据集往往存在西方中心主义、缺乏多样性以及包含有毒或有偏见的内容等问题。
OpenAI在宣布该项目的博客文章中表示:“为了最终制造出对全人类安全有益的人工智能,我们希望人工智能模型能够深入了解所有主题、行业、文化和语言,这需要尽可能广泛的训练数据集。”
OpenAI希望通过与伙伴合作收集涵盖文本、图像、音频和视频在内的大规模数据集,从而提高模型的理解能力。该公司表示,将努力删除任何敏感或个人信息,并提供保持数据集隐私的选项。
OpenAI已经与冰岛政府、自由法律项目和Miğeind ehf等组织合作开发了该计划的早期版本。然而,一些专家对这项努力是否能成功地将迄今为止影响人工智能模型的根深蒂固的偏见降至最低表示怀疑。
OpenAI表示:“总的来说,我们正在寻找愿意帮助我们教会人工智能了解我们的世界的合作伙伴,以便最大限度地帮助每个人。”
虽然多样化的人工智能训练数据至关重要,但该计划显然也有利于GPT-4等OpenAI模型的商业化。这种双重动机,加上OpenAI对数据合作伙伴缺乏补偿,引起了一些关于该公司未经许可使用数据的批评。
OpenAI数据集收集、偏见缓解工作和商业利益的更大透明度将是衡量数据合作伙伴关系对整个人工智能格局影响的关键。该项目意味着人们意识到,改善未来的人工智能需要从更好、更具代表性的数据开始。