数据集:

HuggingFaceH4/oasst1_en

许可:

apache-2.0
英文

oasst1_en的数据集卡片

此数据集是对 OpenAssistant's oasst1 dataset 进行处理后的版本,包括以下内容:

  • 筛选出所有的英语对话。
  • 将所有对话树分组,使得数据集中的每一行都对应一个单独的对话。

有关处理详细信息,请参阅此存储库中的create_dataset.py脚本。

分割

Split Description Size
train The full training split 19034
test The full test split 2115