CoNaLa代码生成数据集

数据集描述

该数据集已经经过处理，用于代码生成。CMU CoNaLa（代码/自然语言挑战赛）是卡内基梅隆大学NeuLab和STRUDEL Lab的联合项目。该数据集旨在测试从自然语言生成程序片段的系统。它可在 https://conala-corpus.github.io/ 找到，并从大约600,000个样本的完整语料库中抽取了大约13,000个记录。

语言

英语

数据集结构

数据实例

该数据集的样本如下所示：

[
  {
    "intent": "convert a list to a dictionary in python",
    "snippet": "b = dict(zip(a[0::2], a[1::2]))"
  },
  {
    "intent": "python - sort a list of nested lists",
    "snippet": "l.sort(key=sum_nested)"
  }
]

数据集字段

该数据集具有以下字段（也称为“特征”）：

{
  "intent": "Value(dtype='string', id=None)",
  "snippet": "Value(dtype='string', id=None)"
}

数据集拆分

该数据集分为训练集、验证集和测试集。拆分的大小如下：

Split name	Num samples
train	11125
valid	1237
test	500

作者:

AhmedSSoliman

数据集大小:

3.6 MB