英文

模型卡片:Nous-Hermes-13b

模型描述

Nous-Hermes-13b 是一种综合了超过300,000条指令进行微调的最先进语言模型。该模型由Nous Research进行微调,Teknium和Karan4D主导了微调过程和数据集的整理工作,Redmond AI赞助了计算资源,并有其他多位贡献者参与。结果是一个增强的Llama 13b模型,在各种任务上的性能可与GPT-3.5-turbo相媲美。

该模型的特点是回答长度较长,产生虚假信息的比例低,并且没有OpenAI的审查机制。微调过程在8x a100 80GB DGX机器上进行,使用2000个序列长度进行了50小时以上的训练。

模型训练

该模型几乎完全使用GPT-4生成的合成输出进行训练。这些数据包括了来自各种来源的数据,如GPTeacher、general、roleplay v1&2、code instruct数据集,Nous Instruct & PDACTL(未发布)、CodeAlpaca、Evol_Instruct Uncensored、GPT4-LLM和Unnatural Instructions。

附加的数据输入来自Camel-AI的生物/物理/化学和数学数据集,Airoboros的GPT-4数据集,以及更多来自CodeAlpaca的数据。总数据量超过300,000条指令。

合作伙伴

模型的微调和数据集是Teknium、Karan4D、Nous Research、Huemin Art和Redmond AI的努力和资源的合作。

非常感谢并承认所有慷慨地分享他们数据集的数据集创建者。

特别感谢@winglian、@erhartford和@main_horse在解决一些训练问题上的帮助。

在数据集的贡献者中,GPTeacher由Teknium提供,Wizard LM由nlpxucan提供,Nous Research Instruct Dataset由Karan4D和HueminArt提供。GPT4-LLM和Unnatural Instructions由Microsoft提供,Airoboros数据集由jondurbin提供,Camel-AI数据集来自Camel-AI,CodeAlpaca数据集由Sahil 2801提供。如果有任何遗漏的,请在社区选项卡中开启一个线程。

提示格式

模型遵循Alpaca的提示格式:

### Instruction:

### Response:

或者

### Instruction:

### Input:

### Response:

应用用例资源:

有关使用huggingface transformers和discord实现的来回交互的聊天机器人的示例,请查看: https://github.com/teknium1/alpaca-discord 有关角色扮演discord机器人的示例,请查看: https://github.com/teknium1/alpaca-roleplay-discordbot

未来计划

该模型目前正在以FP16格式上传,并计划将模型转换为GGML和GPTQ 4位量化。团队还正在进行类似于GPT4-x-Vicuna的完整基准测试。我们将尝试与相关人员讨论,以便将该模型纳入GPT4All。

基准测试结果

|    Task     |Version| Metric |Value |   |Stderr|
|-------------|------:|--------|-----:|---|-----:|
|arc_challenge|      0|acc     |0.4915|±  |0.0146|
|             |       |acc_norm|0.5085|±  |0.0146|
|arc_easy     |      0|acc     |0.7769|±  |0.0085|
|             |       |acc_norm|0.7424|±  |0.0090|
|boolq        |      1|acc     |0.7948|±  |0.0071|
|hellaswag    |      0|acc     |0.6143|±  |0.0049|
|             |       |acc_norm|0.8000|±  |0.0040|
|openbookqa   |      0|acc     |0.3560|±  |0.0214|
|             |       |acc_norm|0.4640|±  |0.0223|
|piqa         |      0|acc     |0.7965|±  |0.0094|
|             |       |acc_norm|0.7889|±  |0.0095|
|winogrande   |      0|acc     |0.7190|±  |0.0126|

目前,这些基准测试在ARC-c、ARC-e、Hellaswag和OpenBookQA方面使我们排名第一,在Winogrande方面排名第二,与GPT4all的基准测试列表进行比较。

模型使用

该模型可在Hugging Face上下载。它适用于各种语言任务,从生成创造性文本到理解和遵循复杂的指令。

由我们的项目赞助商Redmond AI提供计算资源,感谢!