数据集:
philschmid/flanv2
就算它被删除了,我也会保存它。
这是 Flan V2 数据集的加工版本。
我与创建者没有任何关联,只是在加工后以更便于访问的格式发布文件。
Flan 集合的作者建议尝试不同的任务混合比例,以获得下游最佳结果。
目前我加工的这个版本与 flan v2 仓库的主分支相比,缺少了几个数据集:
Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot) 和 Dialog (dialog)
指令数据有几种格式:
上述任务和格式的每个组合都保存为一个 JSONL 文件,具有以下模式 {"input": ..., "target": ..., "task": ...}
所有数据都保存为训练集