数据集:
shibing624/source_code
Source code 数据集是一组令人敬畏的 Github 项目,其中包含了 Python、Java、C++ 和其他编程语言。这个数据集可以用于语言建模和文本生成等不同的 NLP 任务。
数据来源:
'train' 的一个示例如下所示。
This example was too long and was cropped: { "text": """ import json import argparse def _parse_args(): parser = argparse.ArgumentParser( description=__doc__, formatter_class=argparse.RawTextHelpFormatter, ) parser.add_argument( '--model-file', required=True, help=( 'A pt file from ' 'https://github.com/pytorch/fairseq/tree/main/examples/hubert' ) ) return parser.parse_args() """ }
所有分割数据集的数据字段相同。
$ wc -l python/* 10000 python/test.txt 5215412 python/train.txt 10000 python/valid.txt 5235412 totaljava
$ wc -l java/* 950083 java/test.txt 2802880 java/train.txt 940803 java/valid.txt 4693766 totalcpp
$ wc -l cpp/* 1060014 cpp/test.txt 3119241 cpp/train.txt 1099124 cpp/valid.txt 5278379 total
作为一个代码生成数据集,我上传它到 huggingface 数据集中心。
引用:
APA:
Xu, M. code-autocomplete: Code AutoComplete with GPT2 model (Version 0.0.4) [Computer software]. https://github.com/shibing624/code-autocomplete
BibTeX:
@software{Xu_code-autocomplete_Code_AutoComplete, author = {Xu, Ming}, title = {code-autocomplete: Code AutoComplete with GPT2 model}, url = {https://github.com/shibing624/code-autocomplete}, version = {0.0.4} }
没有
该数据集是作为评估代码生成模型的基准而开发的。
Github 上令人敬畏的编程代码仓库。
GNU 自由文档许可证v1.3或更高版本。
仅供研究使用。
感谢 @shibing624 添加此数据集。