英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

# StableVicuna-13B

这是一个未量化的float16模型,格式为HF,基于 CarperAI's StableVicuna 13B 的合并。

它是将上述存储库的增量与原始的Llama 13B权重合并而成的结果。

可用的存储库

提示模板

此模型需要以下提示模板:

### Human: your prompt here
### Assistant:

Discord

如需进一步支持,并参与关于这些模型和AI的讨论,请加入我们的社区:

TheBloke AI's Discord server

感谢,以及如何贡献

感谢 chirper.ai 团队!

我收到很多人想要贡献的问题。我喜欢提供模型和帮助他人,非常乐意花更多时间做这件事,同时还希望扩展到新的项目,比如调优/训练。

如果您有能力并愿意进行贡献,我将非常感激,并帮助我继续提供更多模型,并开始新的AI项目。

捐赠者将优先获得有关任何AI/LLM/模型问题和请求的支持,可以访问私人Discord房间,并享受其他福利。

Patreon特别感谢:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。

感谢所有慷慨的赞助者和捐赠者!

原始的StableVicuna-13B模型卡片

模型描述

StableVicuna-13B是通过强化学习从人类反馈中进行Proximal Policy Optimization(PPO)微调的 Vicuna-13B v0 模型,使用了多个对话和教学数据集。

模型细节

Hyperparameter Value
n parameters n_\text{parameters} n parameters ​ 13B
d model d_\text{model} d model ​ 5120
n layers n_\text{layers} n layers ​ 40
n heads n_\text{heads} n heads ​ 40

训练

训练数据集

StableVicuna-13B在三个数据集的混合上进行微调。 OpenAssistant Conversations Dataset (OASST1) 为人类生成的,人类注释的助手风格对话语料库,包括分布在66,497个对话树中的161,443条消息,涵盖35种不同的语言; GPT4All Prompt Generations 是GPT-4生成的400k个提示和回复的数据集;以及 Alpaca 是由OpenAI的text-davinci-003引擎生成的52,000个指令和演示的数据集。

RLHF过程中使用的奖励模型还使用了 OpenAssistant Conversations Dataset (OASST1) 共同训练的另外两个数据集: Anthropic HH-RLHF 是有关AI助手的有益性和无害性的数据集; Stanford Human Preferences Dataset 是在18个不同主题领域中对问题/指令的回答的385K人集体偏好的数据集,从烹饪到法律咨询。

训练过程

使用 trlX 中的PPO来实现CarperAI/stable-vicuna-13b-delta的训练,配置如下:

Hyperparameter Value
num_rollouts 128
chunk_size 16
ppo_epochs 4
init_kl_coef 0.1
target 6
horizon 10000
gamma 1
lam 0.95
cliprange 0.2
cliprange_value 0.2
vf_coef 1.0
scale_reward None
cliprange_reward 10
generation_kwargs
max_length 512
min_length 48
top_k 0.0
top_p 1.0
do_sample True
temperature 1.0

使用和限制

预期用途

该模型旨在用于文本生成,重点是对话任务。用户可以进一步根据自己的数据对模型进行微调,以改善模型在特定任务上的性能,符合非商业性的 license

限制和偏见

基于LLaMA模型的底层训练使用了各种数据,其中一些数据可能包含冒犯性、有害和带有偏见的内容,可能导致毒性行为。请参阅LLaMA paper 的第5.1节。我们没有进行任何研究来确定在上述数据集上的微调如何影响模型的行为和毒性。请不要将来自该模型的聊天回复作为人类判断的替代品或真实信息的来源。请负责任地使用。

致谢

没有 Stability AI 的支持,这项工作将无法实现。

引用

@article{touvron2023llama,
  title={LLaMA: Open and Efficient Foundation Language Models},
  author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume},
  journal={arXiv preprint arXiv:2302.13971},
  year={2023}
}
@misc{vicuna2023,
    title = {Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality},
    url = {https://vicuna.lmsys.org},
    author = {Chiang, Wei-Lin and Li, Zhuohan and Lin, Zi and Sheng, Ying and Wu, Zhanghao and Zhang, Hao and Zheng, Lianmin and Zhuang, Siyuan and Zhuang, Yonghao and Gonzalez, Joseph E. and Stoica, Ion and Xing, Eric P.},
    month = {March},
    year = {2023}
}
@misc{gpt4all,
  author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar},
  title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/nomic-ai/gpt4all}},
}
@misc{alpaca,
  author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto },
  title = {Stanford Alpaca: An Instruction-following LLaMA model},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}},
}
@software{leandro_von_werra_2023_7790115,
  author       = {Leandro von Werra and
                  Alex Havrilla and
                  Max reciprocated and
                  Jonathan Tow and
                  Aman cat-state and
                  Duy V. Phung and
                  Louis Castricato and
                  Shahbuland Matiana and
                  Alan and
                  Ayush Thakur and
                  Alexey Bukhtiyarov and
                  aaronrmm and
                  Fabrizio Milo and
                  Daniel and
                  Daniel King and
                  Dong Shin and
                  Ethan Kim and
                  Justin Wei and
                  Manuel Romero and
                  Nicky Pochinkov and
                  Omar Sanseviero and
                  Reshinth Adithyan and
                  Sherman Siu and
                  Thomas Simonini and
                  Vladimir Blagojevic and
                  Xu Song and
                  Zack Witten and
                  alexandremuzio and
                  crumb},
  title        = {{CarperAI/trlx: v0.6.0: LLaMa (Alpaca), Benchmark
                   Util, T5 ILQL, Tests}},
  month        = mar,
  year         = 2023,
  publisher    = {Zenodo},
  version      = {v0.6.0},
  doi          = {10.5281/zenodo.7790115},
  url          = {https://doi.org/10.5281/zenodo.7790115}
}