Sophia:一种新的训练大型语言模型方法
2023年07月04日 由 Samoyed 发表
334386
0
斯坦福大学的一个团队开发了Sophia,这是一种优化大型语言模型预训练的新方法,速度是现有方法的两倍。
ChatGPT和其他依赖于大型语言模型(LLM)的应用程序正在获得广泛的使用,并引起了媒体的广泛关注。但少数几家大型科技公司主导着大型语言模型领域,因为预训练这些模型非常昂贵,成本估计从1000万美元起,可能达到这个数字的数十倍或数百倍。
斯坦福大学(Stanford University)计算机科学研究生Hong Liu表示:“小型组织或学术团体不太容易使用大型语言模型。”
为了改变这种情况,Liu和他的同事们开始改进当前的大型语言模型优化方法。结果是:一种名为Sophia的方法将预训练时间缩短了一半。这种方法的细节发表在arXiv预印本服务器上。
优化
为了更好地优化大型语言模型预训练,Liu和他的同事们,包括斯坦福大学博士后Zhiyuan Li、斯坦福大学研究工程师David Hall、计算机科学助理教授Tengyu Ma和副教授Percy Liang,使用了两种技巧。第一种方法被称为曲率估计,这并不新鲜,但斯坦福大学的研究小组找到了一种使其更有效的方法。
要理解他们的方法,请以工厂装配线为例。为了有效地发挥作用,工厂经理需要优化将原材料转化为最终产品所需的步骤数量,并且需要了解并适当地安排生产线上每一步的工作量。
预训练大型语言模型也是如此。这些模型有数百万甚至数十亿个参数,Liu将其比作工厂工人朝着同样的目标努力。这些参数的一个特性是它们的曲率,Liu认为这是它们朝着预训练大型语言模型的最终目标前进时所能达到的最大速度。在工厂的比喻中,曲率类似于工厂工人的工作量。
如果一个优化程序可以估计曲率(工作量),它可以使大型语言模型预训练更有效。问题是:用现有的方法估计曲率是非常困难和昂贵的。“事实上,它比不做曲率预测而直接工作更昂贵,”Liu说。这就是为什么当前优化大型语言模型预训练(Adam及其变体)的最先进方法放弃了曲率估计步骤的部分原因。
尽管如此,Liu和他的同事们注意到先前使用参数曲率估计的方法可能导致效率低下:先前的研究人员在优化的每一步都更新了他们的曲率估计。斯坦福大学的研究小组想知道他们是否可以通过减少更新次数来提高这个过程的效率。
为了验证这个想法,斯坦福大学的研究小组设计了Sophia,让它每走10步估计一次参数的曲率。“事实证明这是一个巨大的胜利,”Liu说。
该团队的第二个优化技巧,称为裁剪,解决了曲率估计不准确的问题。“如果估计错误,这就像给那些艰难工作的人更多的工作要做。这比根本没有估算更糟糕。”
裁剪通过设置阈值或最大曲率估计来防止这种情况。“在我们的工厂比喻中,这就像为所有员工设定工作量限制,”Liu说。另一个经常应用于优化的比喻是丘陵和山谷的景观,其目标是在最低的山谷中结束。刘说,没有裁剪它有可能降落在两座山之间的鞍部。他说:“在优化方面,这不是你想要的。”
测试Sophia
Liu和他的同事使用Sophia预训练了一个相对较小的大型语言模型,使用了与OpenAI的GPT-2相同的模型大小和配置。
Sophia结合了曲率估计和裁剪,使大型语言模型预训练优化能够顺利地进行到最低谷,所需的步数和时间是Adam所需的一半。
Sophia的适应性使它与Adam区别开来,”Liu说。“Adam更难处理具有异质曲率的参数,因为它无法提前预测它们。”
Liu说,这也是九年来第一次有人在语言模型预训练方面比Adam有实质性的进步。“这可能意味着训练现实世界大型模型的成本将大幅降低。”他说,随着模型的扩大,Sophia的优势只会增加。
接下来,刘和他的同事们希望利用Sophia开发一个更大的大型语言模型。他还希望看到Sophia应用于机器学习的其他领域,如计算机视觉模型或多模态模型。“将Sophia转移到一个新的领域需要一些时间和资源,但由于它是开源的,社区当然可以做到这一点。”
来源:https://techxplore.com/news/2023-07-team-faster-cheaper-large-language.html