数据集:
shibing624/alpaca-zh
本数据集是参考alpaca方法基于GPT4得到的self-instruct数据,约5万条。
数据集取自 https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
这是来自 https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM/blob/main/data/alpaca_gpt4_data_zh.json 的中文数据集
该数据仅用于研究目的,并获得许可。该数据集是CC BY NC 4.0(仅允许非商业用途),使用该数据集训练的模型不得用于研究目的以外的用途。
使用alpaca-zh数据集进行训练模型: https://github.com/shibing624/textgen
@article{peng2023gpt4llm, title={Instruction Tuning with GPT-4}, author={Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao}, journal={arXiv preprint arXiv:2304.03277}, year={2023} }