数据集:

codeparrot/codeparrot-clean

英文

CodeParrot ? 数据集清洗

是什么?

一个来自Github的Python代码文件数据集。这是经过去重的版本。

清洗过程

原始数据集中包含大量的重复和噪音数据。因此,该数据集经过以下步骤进行了清洗:

  • 去重
    • 删除完全相同的内容
  • 过滤
    • 平均行长度 < 100
    • 最大行长度 < 1000
    • 字母数字字符比例 > 0.25
    • 删除自动生成的文件(关键词搜索)

更多详细信息,请参阅transformers库中的预处理脚本。

划分

数据集分为用于训练和评估的两个部分。

结构

该数据集包含约50GB的代码和5361373个文件。

DatasetDict({
    train: Dataset({
        features: ['repo_name', 'path', 'copies', 'size', 'content', 'license', 'hash', 'line_mean', 'line_max', 'alpha_frac', 'autogenerated'],
        num_rows: 5361373
    })
})