生成式AI的“开放洗白”:人工智能公司如何伪装开放性

2024年07月04日 由 samoyed 发表 165 0

过去一年,声称开放的生成式AI系统急剧增加,但它们究竟有多开放呢?新研究表明,Meta和谷歌等公司普遍存在“开放洗白”的做法:它们声称自己开放,却逃避实际的审查。


openai


在欧盟《人工智能法案》的背景下,生成式AI中何为开源的问题变得尤为重要,因为该法案对“开源”模型进行了不同的监管,从而迫切需要进行实际的开放性评估。


几乎所有主要科技公司都声称提供“开放”模型,但实际上却很少这样做。拉德堡德大学语言研究中心的安德烈亚斯·利森费尔德和马克·丁格曼斯对45个自称开放的文本和文本到图像模型进行了调查,这为我们提供了对当前生成式AI声称的开放性的清晰认识。


他们的研究最近发表在ACM公平、问责制和透明度会议(ACM FAccT 2024)上,并在《自然》新闻简讯中进行了介绍。


逃避审查


研究人员发现,像Meta、微软和Mistral这样的公司经常巧妙地利用“开放”和“开源”等术语,而实际上却几乎完全屏蔽了他们的模型接受科学和监管审查。这些公司经常出于营销目的使用“开放”和“开源”等术语,而实际上并未提供关于源代码、训练数据、微调数据或系统架构的有意义信息。


在之前工作的基础上,研究人员对45多个模型进行了测试,这次还考虑了文本到图像的生成器。他们发现,开放性分布不均且经常被夸大。相反,他们发现像AllenAI(拥有OLMo)和BigScience Workshop + HuggingFace(拥有BloomZ)这样的小型玩家往往更加努力地记录他们的系统并将其开放给审查。


欧盟《人工智能法案》


最近出台的欧盟《人工智能法案》为“开源”模型提供了特别豁免,但并未对“开源”这一术语给出明确定义。这导致了“开放洗白”现象的激励:如果模型被视为开放,模型提供商将面临较少的严格要求和较少的公众及科学审查。利森费尔德指出:“这使得我们在生成式AI领域对开放性的构成有清晰的认识变得更为重要。我们不认为开放性是一种非此即彼的现象,而是一种复合的(由多个元素组成)和渐变的(具有不同程度)现象。”


尽管欧盟《人工智能法案》加剧了紧迫性,但长期以来,人们一直认识到开放性对于创新、科学和社会的重要性。通过消除AI的神秘感,开放性还可以建立对AI的信任和理解。丁格曼斯表示:“如果像OpenAI这样的公司声称他们的AI可以‘通过律师资格考试’,那么这是否令人印象深刻则取决于训练数据的内容。


“OpenAI在这方面一直含糊其辞,可能也是为了避免法律风险,但训练数据的巨大规模意味着ChatGPT和类似的下一个单词预测引擎可以在‘开卷’模式下完成大多数考试,这使得它们的表现并不那么令人印象深刻。”


这项工作有助于为AI领域有意义的开放性建立依据,并揭示了越来越多ChatGPT的替代品。此前不久,拉德堡德大学人文学院发布了关于生成式AI和研究诚信的指导方针,呼吁研究人员在考虑使用生成式AI时具备更强的批判性AI素养。

文章来源:https://techxplore.com/news/2024-07-generative-ai-meta-google-feign.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消