数据集:
QingyiSi/Alpaca-CoT
这个存储库将持续收集各种指令微调数据集。我们将不同的数据集标准化为相同的格式,可以直接被Alpaca模型的 code 加载。
我们还基于Alpaca模型对多个指令微调数据集进行了实证研究,如 https://github.com/PhoebusSi/alpaca-CoT 所示。
如果您认为此数据集收集对您有帮助,请点赞此数据集并为我们的 github project 加标星!
您可以向我们提供尚未收集的任何指令微调数据集(或其来源)。我们将统一对它们进行格式化处理,并使用这些数据集训练Alpaca模型,并开源模型检查点。
欢迎加入我们,成为此项目的贡献者!如果要共享一些数据集,请按以下格式调整数据:
example.json [ {"instruction": instruction string, "input": input string, # (may be empty) "output": output string} ]
文件夹应该是这样的:
Alpaca-CoT | |----example | | | |----example.json | | | ----example_context.json ...
准备好后,在 Community 中创建一个新的拉取请求并发布您的分支。我们会尽快合并它。
此文件夹中的所有数据都按照相同的模板进行了格式化,每个样本如下:
[ {"instruction": instruction string, "input": input string, # (may be empty) "output": output string} ]
这个数据集由 Stanford Alpaca 发布。它包含通过 Self-Instruction 技术获得的52K个英语指令跟随样本。
alpaca_data_cleaned.json这个数据集通过去除各种标记化工件来修订alpaca_data.json 而获得。
这个数据集由 Instruction-Tuning-with-GPT-4 发布。它包含GPT-4使用Alpaca提示进行微调LLM的52K英语指令跟随样本。
alpaca_gpt4_data_zh.json这个数据集是由ChatGPT使用从阿尔帕卡翻译的中文提示生成的。
这个数据集是通过对 FLAN 发布的9个CoT数据集的组合进行格式化而获得的。它包含9个涉及74771个样本的CoT任务。
CoT_CN_data.json这个数据集是通过将CoT_data.json 翻译成中文而获得的,使用了Google Translate(en2cn)。
formatted_cot_data文件夹此文件夹包含每个CoT数据集的格式化英文数据。
formatted_cot_data文件夹此文件夹包含每个CoT数据集的格式化中文数据。
这个数据集由 codealpaca 发布。它包含涉及20022个样本的代码生成任务。
这个数据集是从 here 收集的。它包含68912个与财务相关的英语指令。
这个数据集是从 here 收集的。它包含23个NLP任务中的1649398个中文指令。
这个数据集是从 here 收集的。它包含在代码、故事和对话任务中的806199个英语指令。
gpt4all_without_p3.json不含Bigscience/P3的gpt4all,包含437605个样本。
这个数据集是从 here 收集的。它包含由GPT-4、General-Instruct - Roleplay-Instruct - Code-Instruct和Toolformer生成的29013个英语指令。
这个数据集是从 here 收集的。它包含由text-davinci-003生成的534610个英语指令,该模型依靠针对英语语法分析、自然语言理解、跨语言自我认知和明确内容识别创建的不同语言的种子任务重写和专门设计的新任务。
Guanaco_additional_Dataset.json一个新的额外的、适用于不同语言的数据集。
这个数据集是从 here 收集的。它包含ChatGPT和人工生成的37175个英文/中文指令。
HC3_ChatGPT_deduplication.json/HC3_Human_deduplication.json没有重复指令的HC3数据集。
这两个数据集是从 here 收集的。它们包含52191个英语和51504个中文指令,这些指令是从Twitter上收集的,用户倾向于分享他们感兴趣的生成、开放QA和思维风暴类型的提示(Colossal AI使用这些数据集来训练ColossalChat模型)。
这两个数据集是从 here 收集的。它包含通过AllenAI提供的先进自然语言处理工具执行的888969个英语指令的增强。
这个数据集是从 here 收集的。它包含从不同的NLP任务中收集的5040134条指令。
这个数据集是从 here 收集的。它包含165681个由GPT-3重写问题和人类反馈生成的英文指令。
这个数据集是从 here 收集的。它包含通过46种语言和16种NLP任务的提示和数据集收集的78883588条指令。
中文指令收集的所有数据集
这个数据集是英文alpaca_data.json和中文belle_data_cn.json的组合。
alcapa_plus_cot_data.json这个数据集是英文alpaca_data.json和CoT_data.json的组合。
alcapa_plus_belle_cot_data.json这个数据集是英文alpaca_data.json、中文belle_data_cn.json和CoT_data.json的组合。
如果您使用本存储库中的数据集、代码和实验结果,请引用该存储库。
@misc{alpaca-cot, author = {Qingyi Si, Zheng Lin }, school = {Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China}, title = {Alpaca-CoT: An Instruction Fine-Tuning Platform with Instruction Data Collection and Unified Large Language Models Interface}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/PhoebusSi/alpaca-CoT}}, }
请同时引用原始的斯坦福阿尔帕卡、BELLE和FLAN论文。