微软研究院发布了其Orca 2 LLM,这是Llama 2的优化版本,其性能等同或优于参数数量是其10倍的模型。Orca 2采用了合成训练数据集和一种称为“Prompt Erasure”的新技术来实现这一性能。
Orca 2模型通过使用一个较大、更强大的LLM充当教师的角色,指导较小的学生LLM,来提升学生LLM的性能,使之与较大模型相当。微软的训练技术教会了较小模型多种推理技巧,同时也教会了它如何为特定任务选择最有效的技巧。为此,教师被给予复杂的提示来触发某种特定的推理行为。然而,在一种称为“Prompt Erasure”的方案中,学生只会被给予任务要求和期望的响应,而不是教师的提示。在基准测试中,一个具有130亿参数的Orca 2模型的性能比相同参数数量的Llama 2基线模型提高了47.54%。700亿参数的Orca 2在推理任务上表现“更好或相当”于7000亿参数的Llama 2。
尽管像ChatGPT这样的LLM通常可以在广泛的任务中通过少量提示来表现出色,但由于它们的内存和计算需求,托管这些模型是具有挑战性的。当进行了优化后,较小的模型也可以表现不错,许多研究人员已经研究了如何利用较大的LLM生成的合成数据集来训练它们。例如,谷歌的“Distilling Step-by-Step”方法,它提示一款教师LLM自动生成一个小型的微调数据集,其中包含了输入与输出标签,以及为什么选择输出标签的“理由”。再如,Stability AI的Stable Beluga模型,该模型使用微软原始的Orca 1方案进行训练,该方案采用了“解释性调整”,即教师LLM被提示“生成详细答案”。
像Orca 1一样,Orca 2的训练数据集是由一个被给予详细提示的教师LLM生成的。然而,微软称之为“Cautious Reasoning”的新方法,它将训练任务与提示配对,这些提示会诱导教师使用特定的问题解决策略,比如“一步一步”或“解释你的回答”。然后在学生的训练过程中,教师的提示被擦除,这促使学生学习挑选正确的策略。
为了评估这种方法,微软将Orca 2模型的性能与包括Llama 2、ChatGPT(GPT-3.5)和GPT-4在内的几个基线模型进行了比较。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,130亿参数的Orca 2模型表现优于除ChatGPT和GPT-4之外的所有基线。他们还发现,给Orca 2一个“谨慎”的系统提示(“你是一个谨慎的助手。你会小心地遵循指示。”)与空的系统提示相比,可以使其获得小幅度的性能提升。
一些用户在X上发表了关于Orca 2的帖子。其中一个用户指出:“你不需要用像‘解释每一步’这样的技巧来提示它。它已经懂了。”人工智能研究员Rudi Ranck写道:
“许多聪明的想法是如此简单……就像Orca 2中的“Prompt Erasure”:与其展示完整的提示,不如仅向模型展示任务和答案(它过滤了生成这些答案的完整提示)。它帮助模型在更高层次上进行策略制定。这篇论文真的很不错。我强烈推荐通读一遍。”
在Huggingface上可以使用7B和13B参数的Orca 2模型。