英文

数据集概述

这是 CoNaLa 数据集的重新划分。对于开发集和测试集中的每个代码片段,至少有一个函数被从训练集中排除。此划分旨在测试代码生成模型在生成未见过的函数方面的能力。我们进一步确保来自同一篇 StackOverflow 帖子(相同的 question_id)的示例位于同一划分中。

支持的任务和排行榜

此数据集用于评估代码生成。

语言

英语 - Python 代码。

数据集结构

dataset = load_dataset("neulab/docpromting-conala")
DatasetDict({
    train: Dataset({
        features: ['nl', 'cmd', 'question_id', 'cmd_name', 'oracle_man', 'canonical_cmd'],
        num_rows: 2135
    })
    test: Dataset({
        features: ['nl', 'cmd', 'question_id', 'cmd_name', 'oracle_man', 'canonical_cmd'],
        num_rows: 543
    })
    validation: Dataset({
        features: ['nl', 'cmd', 'question_id', 'cmd_name', 'oracle_man', 'canonical_cmd'],
        num_rows: 201
    })
})
})

code_docs = load_dataset("neulab/docprompting-conala", "docs")
DatasetDict({
    train: Dataset({
        features: ['doc_id', 'doc_content'],
        num_rows: 34003
    })
})

数据字段

训练/开发/测试:

  • nl: 自然语言意图
  • cmd: 参考代码片段
  • question_id: x-y,其中 x 是 StackOverflow 帖子的 ID
  • oracle_man: 参考代码片段中使用的函数的 doc_id。相应的内容位于 doc 划分中
  • canonical_cmd: 规范版本的参考代码片段

文档:

  • doc_id: 文档的 ID
  • doc_content: 文档的内容

数据集创建

数据集是从 Stack Overflow 爬取的,经过自动过滤,然后由注释员进行了策展。有关详细信息,请参阅原始 paper

引用信息

@article{zhou2022doccoder,
  title={DocCoder: Generating Code by Retrieving and Reading Docs},
  author={Zhou, Shuyan and Alon, Uri and Xu, Frank F and JIang, Zhengbao and Neubig, Graham},
  journal={arXiv preprint arXiv:2207.05987},
  year={2022}
}