模型:
TheBloke/wizard-vicuna-13B-HF
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
# Wizard-Vicuna-13B-HF这是一个 float16 HF 格式的仓库,用于 junelee's wizard-vicuna 13B 。
June Lee 的仓库也是 HF 格式的。我制作这个仓库的原因是原始仓库是 float32 格式的,这意味着它需要52GB的磁盘空间、VRAM和RAM。
这个模型被转换为 float16 格式,以便更容易加载和管理。
如需进一步支持,以及对这些模型和AI的讨论,请加入我们:
感谢 chirper.ai 团队!
我有很多人问我能否做出贡献。我喜欢提供模型和帮助他人,并且很乐意能够花更多时间来做这些事情,同时还打算扩大到新的项目,比如微调/训练。
如果您有能力和意愿贡献,将非常感激,并将帮助我继续提供更多模型,并开始在新的AI项目上工作。
捐赠者将在所有AI/LLM/模型问题和请求中获得优先支持,访问私人Discord房间,并享受其他好处。
Patreon特别感谢 : Aemon Algiz, Dmitriy Samsonov, Nathan LeClaire, Trenton Dambrowitz, Mano Prime, David Flickinger, vamX, Nikolai Manek, senxiiz, Khalefa Al-Ahmad, Illia Dulskyi, Jonathan Leane, Talal Aujan, V. Lukas, Joseph William Delisle, Pyrater, Oscar Rangel, Lone Striker, Luke Pendergrass, Eugene Pentland, Sebastain Graf, Johann-Peter Hartman.
感谢所有慷慨的赞助人和捐赠者!
Github页面: https://github.com/melodysdreamj/WizardVicunaLM
我非常喜欢 WizardLM 和 VicunaLM 背后的理念。我特别喜欢 WizardLM 更深入、更广泛地处理数据集本身的思想,以及 VicunaLM 通过引入多轮对话来克服单轮对话的限制。因此,我将这两个思想结合起来创建了 WizardVicunaLM。这个项目是高度实验性的,旨在验证概念,不适用于实际使用。
这里提供的问题并不是严格测试得出的,而是我问了几个问题,并要求 GPT-4 对它们进行评分。比较的模型是 ChatGPT 3.5、WizardVicunaLM、VicunaLM 和 WizardLM,按照这个顺序。
gpt3.5 | wizard-vicuna-13b | vicuna-13b | wizard-7b | link | |
---|---|---|---|---|---|
Q1 | 95 | 90 | 85 | 88 | 12312321 |
Q2 | 95 | 97 | 90 | 89 | 12313321 |
Q3 | 85 | 90 | 80 | 65 | 12314321 |
Q4 | 90 | 85 | 80 | 75 | 12315321 |
Q5 | 90 | 85 | 80 | 75 | 12316321 |
Q6 | 92 | 85 | 87 | 88 | 12317321 |
Q7 | 95 | 90 | 85 | 92 | 12318321 |
Q8 | 90 | 85 | 75 | 70 | 12319321 |
Q9 | 92 | 85 | 70 | 60 | 12320321 |
Q10 | 90 | 80 | 75 | 85 | 12321321 |
Q11 | 90 | 85 | 75 | 65 | 12322321 |
Q12 | 85 | 90 | 80 | 88 | 12323321 |
Q13 | 90 | 95 | 88 | 85 | 12324321 |
Q14 | 94 | 89 | 90 | 91 | 12325321 |
Q15 | 90 | 85 | 88 | 87 | 12326321 |
91 | 88 | 82 | 80 |
我们采用了 WizardLM 的方法,即深入扩展单个问题。然而,我们没有使用单独的指令,而是使用 Vicuna 的对话格式进行扩展,并应用 Vicuna 的微调技术。
将单个指令转化为丰富的对话是我们的做法 here 。
创建训练数据之后,我按照 Vicuna v1.1 进行了训练 training method 。
首先,我们使用 WizardLM 创建的 7K 对话,探索并扩展同一主题的各个领域。但是,我们采用的是连续对话格式,而不是指令格式。也就是说,它以 WizardLM 的指令开始,然后使用 ChatGPT 3.5 在一个对话中扩展成各个领域。
然后,我们使用 Vicuna 的微调格式应用了以下模型。
使用8个A100 GPU进行了35小时的训练。
您可以在 huggingface 上看到我们用于训练的 dataset 和 13b model 。
如果我们将对话扩展到 gpt4 32K,可以预期会有显著的改进,因为我们可以生成更多、更准确、更丰富的对话。
该模型以 LLaMA 模型许可,并且数据集根据 OpenAI 的条款许可,其余所有内容均免费。
JUNE LEE - 他在Songdo人工智能研究和GDG Songdo活动中非常活跃。