数据集:

shibing624/source_code

任务:

文本生成

子任务:

language-modeling

语言:

计算机处理:

monolingual

大小:

size_categories:100M<n<200M

语言创建人:

crowdsourced

批注创建人:

no-annotation

源数据集:

https https https

许可:

cc-by-4.0

gfdl

数据集介绍文件清单

英文

"SourceCode" 数据集卡片

数据集概要

Source code 数据集是一组令人敬畏的 Github 项目，其中包含了 Python、Java、C++ 和其他编程语言。这个数据集可以用于语言建模和文本生成等不同的 NLP 任务。

数据来源：

PYTHON_CODE: https://github.com/bharathgs/Awesome-pytorch-list
JAVA_CODE: https://github.com/akullpp/awesome-java
CPP_CODE: https://github.com/fffaraz/awesome-cpp

支持的任务和排行榜

语言建模
代码生成任务，排行榜： code-autocomplete

语言

编程语言：Python、Java、C++
自然语言：英语

数据集结构

数据实例

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "text": """
import json
import argparse


def _parse_args():
    parser = argparse.ArgumentParser(
        description=__doc__,
        formatter_class=argparse.RawTextHelpFormatter,
    )
    parser.add_argument(
        '--model-file',
        required=True,
        help=(
            'A pt file from '
            'https://github.com/pytorch/fairseq/tree/main/examples/hubert'
        )
    )
    return parser.parse_args()
    """
}

数据字段

所有分割数据集的数据字段相同。

text: 一个字符串特征。

数据分割

python

$ wc -l python/*
   10000 python/test.txt
 5215412 python/train.txt
   10000 python/valid.txt
 5235412 total

java

$ wc -l java/*  
  950083 java/test.txt
 2802880 java/train.txt
  940803 java/valid.txt
 4693766 total

cpp

$ wc -l cpp/* 
 1060014 cpp/test.txt
 3119241 cpp/train.txt
 1099124 cpp/valid.txt
 5278379 total

数据集创建

策划理由

作为一个代码生成数据集，我上传它到 huggingface 数据集中心。

源数据

初始数据收集和归一化谁是源语言制作人？

引用：

APA：

Xu, M. code-autocomplete: Code AutoComplete with GPT2 model (Version 0.0.4) [Computer software]. https://github.com/shibing624/code-autocomplete

BibTeX：

@software{Xu_code-autocomplete_Code_AutoComplete,
author = {Xu, Ming},
title = {code-autocomplete: Code AutoComplete with GPT2 model},
url = {https://github.com/shibing624/code-autocomplete},
version = {0.0.4}
}

注释

注释过程注释员是谁？

没有

个人和敏感信息

使用数据的注意事项

数据的社会影响

该数据集是作为评估代码生成模型的基准而开发的。

偏见讨论

其他已知限制

附加信息

数据集策划者

Github 上令人敬畏的编程代码仓库。

许可信息

GNU 自由文档许可证v1.3或更高版本。

仅供研究使用。

贡献

感谢 @shibing624 添加此数据集。

作者:

shibing624

数据集大小:

9.93 KB