数据集:

codeparrot/codeparrot-clean-valid

英文

CodeParrot ? 数据集已清洗(有效)

训练集拆分为 CodeParrot ? Dataset Cleaned 条数据。

数据集结构

DatasetDict({
    train: Dataset({
        features: ['repo_name', 'path', 'copies', 'size', 'content', 'license', 'hash', 'line_mean', 'line_max', 'alpha_frac', 'autogenerated'],
        num_rows: 61373
    })
})