这是完整的 CodeParrot 数据集。它包含用于在第10章“从头开始训练Transformer”中训练代码生成模型的Python文件。您可以在随附的 Github repository 中找到完整的代码。
使用Google的BigQuery提供的GitHub数据集创建。它包含大约2200万个Python文件,大小为180 GB(压缩后为50 GB)。创建数据集的SQL查询如下:
SELECT f.repo_name, f.path, c.copies, c.size, c.content, l.license FROM `bigquery-public-data.github_repos.files` AS f JOIN `bigquery-public-data.github_repos.contents` AS c ON f.id = c.id JOIN `bigquery-public-data.github_repos.licenses` AS l ON f.repo_name = l.repo_name WHERE NOT c.binary AND ((f.path LIKE '%.py') AND (c.size BETWEEN 1024 AND 1048575))
请注意,数据集中约70%是重复的。如果使用数据集,请确保进行适当的处理。有关此数据集的去重版本,请参见 codeparrot-clean 。