数据集:

codeparrot/github-code-clean

许可:

apache-2.0
英文

这是一个更清洁的版本 Github-code dataset ,我们添加了以下过滤条件:

  • 平均行长度小于100
  • 字母数字字符比例大于0.25
  • 删除自动生成的文件(关键词搜索)

删除了3.39M个文件,占数据集的2.94%。