数据集:

philschmid/flanv2

英文

Fork of SirNeural/flan_v2

就算它被删除了,我也会保存它。

Flan V2 数据集卡片

数据集概述

这是 Flan V2 数据集的加工版本。

我与创建者没有任何关联,只是在加工后以更便于访问的格式发布文件。

Flan 集合的作者建议尝试不同的任务混合比例,以获得下游最佳结果。

目前我加工的这个版本与 flan v2 仓库的主分支相比,缺少了几个数据集:

  • cs-en WMT 翻译任务需要手动下载,我无法获取凭据
  • q_re_cc 数据集在对话任务的预处理中出现问题
  • 这对整个集合的总大小来说只是一些轻微的损失 (MB 和 GB 的数量级),但是一旦修复了这些问题,我会上传一个完整版。

数据集结构

数据实例

Flan 2021 (flan), P3 (t0), Super-Natural Instructions (niv2), Chain-of-thought (cot) 和 Dialog (dialog)

数据字段

指令数据有几种格式:

  • Few Shot (fs)
  • Zero Shot (zs)
  • 提供上下文中的选项 (即多选一) (opt)
  • 不提供选项 (noopt)

上述任务和格式的每个组合都保存为一个 JSONL 文件,具有以下模式 {"input": ..., "target": ..., "task": ...}

数据拆分

所有数据都保存为训练集