数据集:

QingyiSi/Alpaca-CoT

英文

指令微调数据集收集(Alpaca-CoT)

这个存储库将持续收集各种指令微调数据集。我们将不同的数据集标准化为相同的格式,可以直接被Alpaca模型的 code 加载。

我们还基于Alpaca模型对多个指令微调数据集进行了实证研究,如 https://github.com/PhoebusSi/alpaca-CoT 所示。

如果您认为此数据集收集对您有帮助,请点赞此数据集并为我们的 github project 加标星!

您可以向我们提供尚未收集的任何指令微调数据集(或其来源)。我们将统一对它们进行格式化处理,并使用这些数据集训练Alpaca模型,并开源模型检查点。

贡献

欢迎加入我们,成为此项目的贡献者!如果要共享一些数据集,请按以下格式调整数据:

example.json
[
{"instruction": instruction string,
"input": input string, # (may be empty)
"output": output string}
]

文件夹应该是这样的:

Alpaca-CoT
|
|----example
|    |
|    |----example.json
|    |
|     ----example_context.json
...

准备好后,在 Community 中创建一个新的拉取请求并发布您的分支。我们会尽快合并它。

数据使用和资源

数据格式

此文件夹中的所有数据都按照相同的模板进行了格式化,每个样本如下:

[
{"instruction": instruction string,
"input": input string, # (may be empty)
"output": output string}
]

阿尔帕卡

alpaca_data.json

这个数据集由 Stanford Alpaca 发布。它包含通过 Self-Instruction 技术获得的52K个英语指令跟随样本。

alpaca_data_cleaned.json

这个数据集通过去除各种标记化工件来修订alpaca_data.json 而获得。

阿尔帕卡GPT4

alpaca_gpt4_data.json

这个数据集由 Instruction-Tuning-with-GPT-4 发布。它包含GPT-4使用Alpaca提示进行微调LLM的52K英语指令跟随样本。

alpaca_gpt4_data_zh.json

这个数据集是由ChatGPT使用从阿尔帕卡翻译的中文提示生成的。

思维链

CoT_data.json

这个数据集是通过对 FLAN 发布的9个CoT数据集的组合进行格式化而获得的。它包含9个涉及74771个样本的CoT任务。

CoT_CN_data.json

这个数据集是通过将CoT_data.json 翻译成中文而获得的,使用了Google Translate(en2cn)。

formatted_cot_data文件夹

此文件夹包含每个CoT数据集的格式化英文数据。

formatted_cot_data文件夹

此文件夹包含每个CoT数据集的格式化中文数据。

CodeAlpaca

code_alpaca.json

这个数据集由 codealpaca 发布。它包含涉及20022个样本的代码生成任务。

财务

finance_en.json

这个数据集是从 here 收集的。它包含68912个与财务相关的英语指令。

firefly

firefly.json

这个数据集是从 here 收集的。它包含23个NLP任务中的1649398个中文指令。

GPT4all

gpt4all.json

这个数据集是从 here 收集的。它包含在代码、故事和对话任务中的806199个英语指令。

gpt4all_without_p3.json

不含Bigscience/P3的gpt4all,包含437605个样本。

GPTeacher

GPTeacher.json

这个数据集是从 here 收集的。它包含由GPT-4、General-Instruct - Roleplay-Instruct - Code-Instruct和Toolformer生成的29013个英语指令。

Guanaco

GuanacoDataset.json

这个数据集是从 here 收集的。它包含由text-davinci-003生成的534610个英语指令,该模型依靠针对英语语法分析、自然语言理解、跨语言自我认知和明确内容识别创建的不同语言的种子任务重写和专门设计的新任务。

Guanaco_additional_Dataset.json

一个新的额外的、适用于不同语言的数据集。

HC3

HC3_ChatGPT.json/HC3_Human.json

这个数据集是从 here 收集的。它包含ChatGPT和人工生成的37175个英文/中文指令。

HC3_ChatGPT_deduplication.json/HC3_Human_deduplication.json

没有重复指令的HC3数据集。

instinwild

instinwild_en.json & instinwild_cn.json

这两个数据集是从 here 收集的。它们包含52191个英语和51504个中文指令,这些指令是从Twitter上收集的,用户倾向于分享他们感兴趣的生成、开放QA和思维风暴类型的提示(Colossal AI使用这些数据集来训练ColossalChat模型)。

instruct

instruct.json

这两个数据集是从 here 收集的。它包含通过AllenAI提供的先进自然语言处理工具执行的888969个英语指令的增强。

自然指令

natural-instructions-1700tasks.zip

这个数据集是从 here 收集的。它包含从不同的NLP任务中收集的5040134条指令。

prosocial dialog

natural-instructions-1700tasks.zip

这个数据集是从 here 收集的。它包含165681个由GPT-3重写问题和人类反馈生成的英文指令。

xP3

natural-instructions-1700tasks.zip

这个数据集是从 here 收集的。它包含通过46种语言和16种NLP任务的提示和数据集收集的78883588条指令。

中文指令收集

中文指令收集的所有数据集

组合

alcapa_plus_belle_data.json

这个数据集是英文alpaca_data.json和中文belle_data_cn.json的组合。

alcapa_plus_cot_data.json

这个数据集是英文alpaca_data.json和CoT_data.json的组合。

alcapa_plus_belle_cot_data.json

这个数据集是英文alpaca_data.json、中文belle_data_cn.json和CoT_data.json的组合。

引用

如果您使用本存储库中的数据集、代码和实验结果,请引用该存储库。

@misc{alpaca-cot,
  author = {Qingyi Si, Zheng Lin },
  school = {Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China},
  title = {Alpaca-CoT: An Instruction Fine-Tuning Platform with Instruction Data Collection and Unified Large Language Models Interface},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/PhoebusSi/alpaca-CoT}},
}

请同时引用原始的斯坦福阿尔帕卡、BELLE和FLAN论文。