数据集:
codeparrot/codeparrot-clean-train
训练集分割成 CodeParrot ? Dataset Cleaned 。
DatasetDict({ train: Dataset({ features: ['repo_name', 'path', 'copies', 'size', 'content', 'license', 'hash', 'line_mean', 'line_max', 'alpha_frac', 'autogenerated'], num_rows: 5300000 }) })