数据集:

tomekkorbak/pile-curse-full

英文

生成过程

该数据集是使用来自 the Pile 个文档的数据构建的,这些文档使用 LDNOOBW 个单词列表进行评分(评分是每个字符的脏话数量)。

具体的步骤如下:

  • 数据的前半部分是从Pile随机抽取的10万个文档,并进行评分。
  • 数据的后半部分是从Pile中评分最高的10万个文档,通过对整个Pile进行评分来获取。
  • 然后,将数据集进行洗牌,并进行9:1的训练集-测试集划分。
  • 基本统计数据

    平均分数和中位数分别为0.013和0.019。