数据集:
AhmedSSoliman/CoNaLa
该数据集已经经过处理,用于代码生成。CMU CoNaLa(代码/自然语言挑战赛)是卡内基梅隆大学NeuLab和STRUDEL Lab的联合项目。该数据集旨在测试从自然语言生成程序片段的系统。它可在 https://conala-corpus.github.io/ 找到,并从大约600,000个样本的完整语料库中抽取了大约13,000个记录。
英语
该数据集的样本如下所示:
[ { "intent": "convert a list to a dictionary in python", "snippet": "b = dict(zip(a[0::2], a[1::2]))" }, { "intent": "python - sort a list of nested lists", "snippet": "l.sort(key=sum_nested)" } ]
该数据集具有以下字段(也称为“特征”):
{ "intent": "Value(dtype='string', id=None)", "snippet": "Value(dtype='string', id=None)" }
该数据集分为训练集、验证集和测试集。拆分的大小如下:
Split name | Num samples |
---|---|
train | 11125 |
valid | 1237 |
test | 500 |