数据集:

nomic-ai/gpt4all-j-prompt-generations

语言:

en

大小:

100K<n<1M

许可:

apache-2.0
英文

GPT4All-J Prompt Generations 的数据集卡片

数据集描述

用于训练 GPT4All-J GPT4All-J-LoRA 的数据集

我们发布了几个版本的数据集

  • v1.0: 用于在 GPT-J 上微调的原始数据集
  • v1.1-breezy : 一个经过过滤的数据集,我们在其中删除了所有的 AI 语言模型实例
  • v1.2-jazzy : 一个经过过滤的数据集,我们还删除了像 "对不起,我不能回答..." 和 "AI 语言模型" 这样的实例
  • v1.3-groovy : 在 v1.2 数据集中添加了 ShareGPT 和 Dolly,并使用 Atlas 从数据集中删除了约 8% 的语义重复实例

数据集默认为 main,即 v1.0。要下载特定版本,可以在 load_dataset 的关键字参数 revision 中传递参数:

from datasets import load_dataset

jazzy = load_dataset("nomic-ai/gpt4all-j-prompt-generations", revision='v1.2-jazzy')