作为基本模型,使用了 https://huggingface.co/eachadea/vicuna-13b-1.1
在Teknium的GPTeacher数据集、未发布的角色扮演v2数据集、GPT-4-LLM数据集(未经审查)、WizardLM(未经审查)和Nous Research Instruct数据集上进行了微调
大约有18万个指令,全部来自GPT-4,已清除任何OpenAI审查/“作为AI语言模型”等
基本模型仍然有OpenAI的审查。很快将发布新版本,其中去除了来自 https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltere 的审查
使用8个A100-80GB GPU进行了5轮次的训练,遵循了Alpaca深度加速训练代码
Nous Research Instruct数据集将很快发布
提示格式为Alpaca:
### Instruction:
### Response:
或者
### Instruction:
### Input:
### Response:
由 https://huggingface.co/teknium 提供的GPTeacher、角色扮演v2
由 https://github.com/nlpxucan 提供的Wizard LM
由 https://huggingface.co/karan4d 和 https://huggingface.co/huemin 提供的Nous Research Instruct数据集
基准测试结果:
"arc_challenge": {
"acc": 0.4189419795221843,
"acc_stderr": 0.01441810695363901,
"acc_norm": 0.439419795221843,
"acc_norm_stderr": 0.014503747823580123
},
"arc_easy": {
"acc": 0.7159090909090909,
"acc_stderr": 0.009253921261885768,
"acc_norm": 0.5867003367003367,
"acc_norm_stderr": 0.010104361780747527
},
"boolq": {
"acc": 0.8137614678899082,
"acc_stderr": 0.006808882985424063
},
"hellaswag": {
"acc": 0.5790679147580163,
"acc_stderr": 0.004926996830194234,
"acc_norm": 0.7518422624975104,
"acc_norm_stderr": 0.004310610616845708
},
"openbookqa": {
"acc": 0.288,
"acc_stderr": 0.02027150383507522,
"acc_norm": 0.436,
"acc_norm_stderr": 0.0221989546414768
},
"piqa": {
"acc": 0.7529923830250272,
"acc_stderr": 0.010062268140772622,
"acc_norm": 0.749727965179543,
"acc_norm_stderr": 0.01010656188008979
},
"winogrande": {
"acc": 0.6495659037095501,
"acc_stderr": 0.01340904767667019
}
计算由我们项目赞助商 https://redmond.ai/ 提供