OpenAI发布7.74亿参数版本的GPT-2,包含15.58亿参数的完整模型还在路上
2019年08月21日 由 马什么梅 发表
640747
0
OpenAI发布了GPT-2新版本,包含7.74亿个参数,这是一款先进的会话式人工智能模型,在2月发布之后引发了争议。2月和5月OpenAI为部分研究人员发布了较小的版本。
OpenAI今天还分享了一份开源法律协议,帮助创建大型人工智能模型的公司建立自己的模型共享协议。
完整的模型包含大约15亿个参数,OpenAI也表示将在未来几个月发布完整模型。
GPT-2
今天,OpenAI研究人员和哈佛大学研究助理Ariel Herbert-Voss在白皮书中详细介绍了OpenAI的GPT-2方法及其分阶段发布方法。该文件还描述了为什么OpenAI选择延迟发布完整版本。
文件写道,“随着尺寸的性能随着模型尺寸的增加而趋于改善,例如产生连贯文本的可靠性,我们决定不再同时发布所有四个GPT-2模型,因为担心较大的模型被滥用。通过错开发布,我们为风险分析留出了时间,并利用较小模型的发现来通知对较大模型采取的行动。”
OpenAI以担心恶意行动者滥用和潜在的深度赝品自动化为理由,在今年2月GPT-2首次亮相时,选择不共享所有四个版本的模型,模型在一系列任务上取得了最先进的结果。团队使用40千兆字节的互联网文本训练GPT-2。由于OpenAI始终拖延开源的这一举动,OpenAI还被网友怼成ClosedAI。
本文中引用的GPT-2的潜在正面使用案例包括帮助作者完成工作,为软件工程师编写代码自动化,更好的聊天机器人以及回答有关健康的问题。
康奈尔大学本月早些时候在外交事务上发表的分析发现,阅读GPT-2生成的文本的人中,超过70%的人认为这一文本就像《纽约时报》的文章一样具有可信度。
论文还引用艾伦人工智能研究所和Hugging Face NLP的交错发布方法作为未来发布大型语言理解模型的可能方法。
争议与合作
OpenAI方法的最初批评者表示,未能发布源代码对社会和缺乏资源复制模型或其结果的科学家构成了潜在威胁。
其他人称其为OpenAI的宣传噱头,这一观点的根据在于OpenAI最近从微软筹集了10亿美元,并在3月份改变了其非营利性业务。
为了确定比GPT-2发布时可能出现的错误传播风险更低的风险,OpenAI与安全专家合作,监控人们使用的GPT-2,并对自动检测,偏见和误用潜力进行了内部研究。
为了继续探索滥用的可能性,以及如何安全地发布像GPT-2这样的大型模型,OpenAI与俄勒冈大学,德克萨斯大学奥斯汀分校,米德尔伯里国际研究所和康奈尔大学建立了合作伙伴关系。
未来发展
观察7.74亿模型是如何使用的,并与研究人员和决策者讨论语言模型,以理解围绕更大模型的考虑因素,都将作为未来的发布决策参考。
作为阶段性发布策略的一部分,我们目前的计划是在几个月内发布1558M参数模型,但是来自合作伙伴的发现,或者恶意使用我们的774M模型,有可能改变这一情况。
我们认为,分阶段发布和基于合作伙伴关系的模型共享的组合可能是AI负责任发布的关键基础,特别是在强大的生成模型的背景下。
随着时间的推移,大型模型固有的问题将会越来越多,我们希望GPT-2将为AI社区提供可以借鉴的证据。
代码、论文、时间线:
openai.com/blog/gpt-2-6-month-follow-up