模型:
TheBloke/stable-vicuna-13B-HF
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
# StableVicuna-13B这是一个未量化的float16模型,格式为HF,基于 CarperAI's StableVicuna 13B 的合并。
它是将上述存储库的增量与原始的Llama 13B权重合并而成的结果。
此模型需要以下提示模板:
### Human: your prompt here ### Assistant:
如需进一步支持,并参与关于这些模型和AI的讨论,请加入我们的社区:
感谢 chirper.ai 团队!
我收到很多人想要贡献的问题。我喜欢提供模型和帮助他人,非常乐意花更多时间做这件事,同时还希望扩展到新的项目,比如调优/训练。
如果您有能力并愿意进行贡献,我将非常感激,并帮助我继续提供更多模型,并开始新的AI项目。
捐赠者将优先获得有关任何AI/LLM/模型问题和请求的支持,可以访问私人Discord房间,并享受其他福利。
Patreon特别感谢:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。
感谢所有慷慨的赞助者和捐赠者!
StableVicuna-13B是通过强化学习从人类反馈中进行Proximal Policy Optimization(PPO)微调的 Vicuna-13B v0 模型,使用了多个对话和教学数据集。
Hyperparameter | Value |
---|---|
n parameters n_\text{parameters} n parameters | 13B |
d model d_\text{model} d model | 5120 |
n layers n_\text{layers} n layers | 40 |
n heads n_\text{heads} n heads | 40 |
StableVicuna-13B在三个数据集的混合上进行微调。 OpenAssistant Conversations Dataset (OASST1) 为人类生成的,人类注释的助手风格对话语料库,包括分布在66,497个对话树中的161,443条消息,涵盖35种不同的语言; GPT4All Prompt Generations 是GPT-4生成的400k个提示和回复的数据集;以及 Alpaca 是由OpenAI的text-davinci-003引擎生成的52,000个指令和演示的数据集。
RLHF过程中使用的奖励模型还使用了 OpenAssistant Conversations Dataset (OASST1) 共同训练的另外两个数据集: Anthropic HH-RLHF 是有关AI助手的有益性和无害性的数据集; Stanford Human Preferences Dataset 是在18个不同主题领域中对问题/指令的回答的385K人集体偏好的数据集,从烹饪到法律咨询。
使用 trlX 中的PPO来实现CarperAI/stable-vicuna-13b-delta的训练,配置如下:
Hyperparameter | Value |
---|---|
num_rollouts | 128 |
chunk_size | 16 |
ppo_epochs | 4 |
init_kl_coef | 0.1 |
target | 6 |
horizon | 10000 |
gamma | 1 |
lam | 0.95 |
cliprange | 0.2 |
cliprange_value | 0.2 |
vf_coef | 1.0 |
scale_reward | None |
cliprange_reward | 10 |
generation_kwargs | |
max_length | 512 |
min_length | 48 |
top_k | 0.0 |
top_p | 1.0 |
do_sample | True |
temperature | 1.0 |
该模型旨在用于文本生成,重点是对话任务。用户可以进一步根据自己的数据对模型进行微调,以改善模型在特定任务上的性能,符合非商业性的 license 。
基于LLaMA模型的底层训练使用了各种数据,其中一些数据可能包含冒犯性、有害和带有偏见的内容,可能导致毒性行为。请参阅LLaMA paper 的第5.1节。我们没有进行任何研究来确定在上述数据集上的微调如何影响模型的行为和毒性。请不要将来自该模型的聊天回复作为人类判断的替代品或真实信息的来源。请负责任地使用。
没有 Stability AI 的支持,这项工作将无法实现。
@article{touvron2023llama, title={LLaMA: Open and Efficient Foundation Language Models}, author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and Rodriguez, Aurelien and Joulin, Armand and Grave, Edouard and Lample, Guillaume}, journal={arXiv preprint arXiv:2302.13971}, year={2023} }
@misc{vicuna2023, title = {Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality}, url = {https://vicuna.lmsys.org}, author = {Chiang, Wei-Lin and Li, Zhuohan and Lin, Zi and Sheng, Ying and Wu, Zhanghao and Zhang, Hao and Zheng, Lianmin and Zhuang, Siyuan and Zhuang, Yonghao and Gonzalez, Joseph E. and Stoica, Ion and Xing, Eric P.}, month = {March}, year = {2023} }
@misc{gpt4all, author = {Yuvanesh Anand and Zach Nussbaum and Brandon Duderstadt and Benjamin Schmidt and Andriy Mulyar}, title = {GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/nomic-ai/gpt4all}}, }
@misc{alpaca, author = {Rohan Taori and Ishaan Gulrajani and Tianyi Zhang and Yann Dubois and Xuechen Li and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {Stanford Alpaca: An Instruction-following LLaMA model}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/tatsu-lab/stanford_alpaca}}, }
@software{leandro_von_werra_2023_7790115, author = {Leandro von Werra and Alex Havrilla and Max reciprocated and Jonathan Tow and Aman cat-state and Duy V. Phung and Louis Castricato and Shahbuland Matiana and Alan and Ayush Thakur and Alexey Bukhtiyarov and aaronrmm and Fabrizio Milo and Daniel and Daniel King and Dong Shin and Ethan Kim and Justin Wei and Manuel Romero and Nicky Pochinkov and Omar Sanseviero and Reshinth Adithyan and Sherman Siu and Thomas Simonini and Vladimir Blagojevic and Xu Song and Zack Witten and alexandremuzio and crumb}, title = {{CarperAI/trlx: v0.6.0: LLaMa (Alpaca), Benchmark Util, T5 ILQL, Tests}}, month = mar, year = 2023, publisher = {Zenodo}, version = {v0.6.0}, doi = {10.5281/zenodo.7790115}, url = {https://doi.org/10.5281/zenodo.7790115} }