数据集:

shibing624/alpaca-zh

英文

"alpaca-zh" 数据集卡片

本数据集是参考alpaca方法基于GPT4得到的self-instruct数据,约5万条。

数据集取自 https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

这是来自 https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM/blob/main/data/alpaca_gpt4_data_zh.json 的中文数据集

使用和许可通知

该数据仅用于研究目的,并获得许可。该数据集是CC BY NC 4.0(仅允许非商业用途),使用该数据集训练的模型不得用于研究目的以外的用途。

使用alpaca-zh数据集进行训练模型: https://github.com/shibing624/textgen

英文数据集

Found here

引用

@article{peng2023gpt4llm,
    title={Instruction Tuning with GPT-4},
    author={Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao},
    journal={arXiv preprint arXiv:2304.03277},
    year={2023}
}