微软的Orca 2 LLMOrca 2性能媲美10倍参数模型

2023年12月13日由 samoyed 发表 612 0

微软研究院发布了其Orca 2 LLM，这是Llama 2的优化版本，其性能等同或优于参数数量是其10倍的模型。Orca 2采用了合成训练数据集和一种称为“Prompt Erasure”的新技术来实现这一性能。

8DC98251CEDC981456045E895FDC566513D5E606_size164_w1260_h840

Orca 2模型通过使用一个较大、更强大的LLM充当教师的角色，指导较小的学生LLM，来提升学生LLM的性能，使之与较大模型相当。微软的训练技术教会了较小模型多种推理技巧，同时也教会了它如何为特定任务选择最有效的技巧。为此，教师被给予复杂的提示来触发某种特定的推理行为。然而，在一种称为“Prompt Erasure”的方案中，学生只会被给予任务要求和期望的响应，而不是教师的提示。在基准测试中，一个具有130亿参数的Orca 2模型的性能比相同参数数量的Llama 2基线模型提高了47.54%。700亿参数的Orca 2在推理任务上表现“更好或相当”于7000亿参数的Llama 2。

尽管像ChatGPT这样的LLM通常可以在广泛的任务中通过少量提示来表现出色，但由于它们的内存和计算需求，托管这些模型是具有挑战性的。当进行了优化后，较小的模型也可以表现不错，许多研究人员已经研究了如何利用较大的LLM生成的合成数据集来训练它们。例如，谷歌的“Distilling Step-by-Step”方法，它提示一款教师LLM自动生成一个小型的微调数据集，其中包含了输入与输出标签，以及为什么选择输出标签的“理由”。再如，Stability AI的Stable Beluga模型，该模型使用微软原始的Orca 1方案进行训练，该方案采用了“解释性调整”，即教师LLM被提示“生成详细答案”。

像Orca 1一样，Orca 2的训练数据集是由一个被给予详细提示的教师LLM生成的。然而，微软称之为“Cautious Reasoning”的新方法，它将训练任务与提示配对，这些提示会诱导教师使用特定的问题解决策略，比如“一步一步”或“解释你的回答”。然后在学生的训练过程中，教师的提示被擦除，这促使学生学习挑选正确的策略。

为了评估这种方法，微软将Orca 2模型的性能与包括Llama 2、ChatGPT（GPT-3.5）和GPT-4在内的几个基线模型进行了比较。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中，130亿参数的Orca 2模型表现优于除ChatGPT和GPT-4之外的所有基线。他们还发现，给Orca 2一个“谨慎”的系统提示（“你是一个谨慎的助手。你会小心地遵循指示。”）与空的系统提示相比，可以使其获得小幅度的性能提升。

一些用户在X上发表了关于Orca 2的帖子。其中一个用户指出：“你不需要用像‘解释每一步’这样的技巧来提示它。它已经懂了。”人工智能研究员Rudi Ranck写道：

“许多聪明的想法是如此简单……就像Orca 2中的“Prompt Erasure”：与其展示完整的提示，不如仅向模型展示任务和答案（它过滤了生成这些答案的完整提示）。它帮助模型在更高层次上进行策略制定。这篇论文真的很不错。我强烈推荐通读一遍。”

在Huggingface上可以使用7B和13B参数的Orca 2模型。

文章来源：https://www.infoq.com/news/2023/12/microsoft-orca-2-llm/

标签：

Orca 2

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇全新AI模型“Upscale-A-Video”推动实景视频高分辨率革新

下一篇 Gemini现在可供开发者通过Google AI Studio免费访问

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来