数据集:

AhmedSSoliman/CoNaLa

英文

CoNaLa代码生成数据集

目录

  • 数据集描述
    • 语言
  • 数据集结构
    • 数据实例
    • 数据字段
    • 数据拆分

数据集描述

该数据集已经经过处理,用于代码生成。CMU CoNaLa(代码/自然语言挑战赛)是卡内基梅隆大学NeuLab和STRUDEL Lab的联合项目。该数据集旨在测试从自然语言生成程序片段的系统。它可在 https://conala-corpus.github.io/ 找到,并从大约600,000个样本的完整语料库中抽取了大约13,000个记录。

语言

英语

数据集结构

数据实例

该数据集的样本如下所示:

[
  {
    "intent": "convert a list to a dictionary in python",
    "snippet": "b = dict(zip(a[0::2], a[1::2]))"
  },
  {
    "intent": "python - sort a list of nested lists",
    "snippet": "l.sort(key=sum_nested)"
  }
]

数据集字段

该数据集具有以下字段(也称为“特征”):

{
  "intent": "Value(dtype='string', id=None)",
  "snippet": "Value(dtype='string', id=None)"
}

数据集拆分

该数据集分为训练集、验证集和测试集。拆分的大小如下:

Split name Num samples
train 11125
valid 1237
test 500