一个来自Github的Python代码文件数据集。这是经过去重的版本。
原始数据集中包含大量的重复和噪音数据。因此,该数据集经过以下步骤进行了清洗:
更多详细信息,请参阅transformers库中的预处理脚本。
数据集分为用于训练和评估的两个部分。
该数据集包含约50GB的代码和5361373个文件。
DatasetDict({ train: Dataset({ features: ['repo_name', 'path', 'copies', 'size', 'content', 'license', 'hash', 'line_mean', 'line_max', 'alpha_frac', 'autogenerated'], num_rows: 5361373 }) })