数据集:

shibing624/source_code

英文

"SourceCode" 数据集卡片

数据集概要

Source code 数据集是一组令人敬畏的 Github 项目,其中包含了 Python、Java、C++ 和其他编程语言。这个数据集可以用于语言建模和文本生成等不同的 NLP 任务。

数据来源:

支持的任务和排行榜

语言

  • 编程语言:Python、Java、C++
  • 自然语言:英语

数据集结构

数据实例

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "text": """
import json
import argparse


def _parse_args():
    parser = argparse.ArgumentParser(
        description=__doc__,
        formatter_class=argparse.RawTextHelpFormatter,
    )
    parser.add_argument(
        '--model-file',
        required=True,
        help=(
            'A pt file from '
            'https://github.com/pytorch/fairseq/tree/main/examples/hubert'
        )
    )
    return parser.parse_args()
    """
}

数据字段

所有分割数据集的数据字段相同。

  • text: 一个字符串特征。

数据分割

python
$ wc -l python/*
   10000 python/test.txt
 5215412 python/train.txt
   10000 python/valid.txt
 5235412 total
java
$ wc -l java/*  
  950083 java/test.txt
 2802880 java/train.txt
  940803 java/valid.txt
 4693766 total
cpp
$ wc -l cpp/* 
 1060014 cpp/test.txt
 3119241 cpp/train.txt
 1099124 cpp/valid.txt
 5278379 total

数据集创建

策划理由

作为一个代码生成数据集,我上传它到 huggingface 数据集中心。

源数据

初始数据收集和归一化 谁是源语言制作人?

引用:

APA:

Xu, M. code-autocomplete: Code AutoComplete with GPT2 model (Version 0.0.4) [Computer software]. https://github.com/shibing624/code-autocomplete

BibTeX:

@software{Xu_code-autocomplete_Code_AutoComplete,
author = {Xu, Ming},
title = {code-autocomplete: Code AutoComplete with GPT2 model},
url = {https://github.com/shibing624/code-autocomplete},
version = {0.0.4}
}

注释

注释过程 注释员是谁?

没有

个人和敏感信息

使用数据的注意事项

数据的社会影响

该数据集是作为评估代码生成模型的基准而开发的。

偏见讨论

其他已知限制

附加信息

数据集策划者

Github 上令人敬畏的编程代码仓库。

许可信息

GNU 自由文档许可证v1.3或更高版本。

仅供研究使用。

贡献

感谢 @shibing624 添加此数据集。