Orca LLM:模拟ChatGPT的推理过程
2023年06月21日 由 daydream 发表
810351
0
Orca是一个拥有130亿个参数的模型,学习模仿LFM的推理过程。它使用渐进式学习和来自ChatGPT的教师辅助来弥补容量差距。通过利用GPT-4的丰富信号,Orca增强了自身的能力,并提高了模仿学习的性能。
介绍
在大型语言模型(LLM)领域,人们一直在追求在不影响其效率的情况下增强小型模型的功能。传统的方法是使用模仿学习,其中较小的模型从大型基础模型(LFM)生成的输出中学习。然而,这种方法面临着一些挑战,包括来自浅层LFM输出的有限模仿信号、小规模同质化训练数据和缺乏严格的评估。这往往导致较小模型只模仿了LFM的风格,而没有理性推理的过程。
《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》一文介绍了Orca,一个拥有1300亿参数的模型,旨在模仿大型基础模型(如GPT-4)的推理过程。与传统大型语言模型(LLM)不同,Orca采用了一种独特的训练方法,结合了渐进式学习和教师辅助,以弥补较小学生模型与较大模型之间的能力差距。
培训方法
Orca的训练过程分为两个阶段。
在第一阶段,Orca在包含ChatGPT扩充的FLAN-5M数据集上进行训练。这个中级教师辅助有助于填补Orca和具有更大参数规模的GPT-4之间的能力差距。通过利用ChatGPT的能力,Orca在模仿学习性能方面得到了改进。
在第二阶段,Orca在包含GPT-4扩充的FLAN-1M数据集上进行训练。这种渐进学习方法遵循课程学习范式,在处理更具挑战性的例子之前,让学生模型从较简单的例子中学习。通过逐渐让Orca接触到越来越复杂的推理和一步一步的解释,该模型提高了它的推理能力和模仿技能。
优势和贡献
与传统的LLM相比,Orca的培训方法具有几个优势。
首先,它通过利用中级教师模型解决了能力差距问题,使Orca能够从更有能力的来源学习。这种方法已被证明可以提高较小学生模型的模仿学习性能。
其次,Orca训练的渐进式学习方面使模型能够逐步建立其知识。通过从更简单的例子开始,逐渐引入更复杂的例子,Orca为推理和解释的生成奠定了更坚实的基础。
此外,Orca模仿GPT-4等LFM的推理过程的能力为提高各种任务的性能开辟了可能性。通过利用 GPT-4 的解释轨迹和分步思维过程提供的丰富信号,Orca 获得了宝贵的见解并提高了自己的能力。
性能基准
Orca在复杂的零样本推理基准测试中表现出色。它在Big-Bench Hard(BBH)和AGIEval等基准测试中的表现超过了以Vicuna-13B为代表的传统最先进的指导调优模型100%以上和42%以上。此外,Orca在BBH基准测试上达到了与ChatGPT相同的分数,在SAT、LSAT、GRE和GMAT等专业和学术考试中也展现出了有竞争力的性能。值得注意的是,这些都是零样本设置中的测试,而Orca在落后于GPT-4的情况下仍然表现出竞争力。
影响和未来方向
Orca的发展代表了LLM领域的重要进展。通过学习丰富的信号并模仿LFMs的推理过程,Orca能够以高度准确性执行复杂的推理任务。这在需要复杂推理和问题解决的领域具有广泛的影响。
此外,这项研究表明,从逐步的AI模型解释中学习是改进模型能力的一个有前途的方向。这为LLM领域的研究和开发开辟了新的途径。
结论
Orca提供了一种新颖的训练大型语言模型的方法,结合渐进学习和教师辅助来增强模仿学习。通过利用中级教师模型,并逐渐让学生模型接触更复杂的示例,Orca弥补了容量差距,并提高了其推理和解释生成能力。该论文的发表对于模仿学习技术的进展具有重要贡献,并对未来语言模型的发展具有重大意义。
来源:https://www.kdnuggets.com/2023/06/orca-llm-reasoning-processes-chatgpt.html