数据集:

transformersbook/codeparrot

英文

CodeParrot ? 数据集

是什么?

这是完整的 CodeParrot 数据集。它包含用于在第10章“从头开始训练Transformer”中训练代码生成模型的Python文件。您可以在随附的 Github repository 中找到完整的代码。

创建

使用Google的BigQuery提供的GitHub数据集创建。它包含大约2200万个Python文件,大小为180 GB(压缩后为50 GB)。创建数据集的SQL查询如下:

SELECT
  f.repo_name, f.path, c.copies, c.size, c.content, l.license
FROM
  `bigquery-public-data.github_repos.files` AS f
JOIN
  `bigquery-public-data.github_repos.contents` AS c
ON
  f.id = c.id
JOIN
  `bigquery-public-data.github_repos.licenses` AS l
ON
  f.repo_name = l.repo_name 
WHERE
  NOT c.binary
    AND ((f.path LIKE '%.py')
      AND (c.size BETWEEN 1024 AND 1048575))

重复

请注意,数据集中约70%是重复的。如果使用数据集,请确保进行适当的处理。有关此数据集的去重版本,请参见 codeparrot-clean