数据集:
neulab/docprompting-conala
任务:
文生文语言:
code计算机处理:
monolingual源数据集:
original其他:
code-generation doc retrieval retrieval augmented generation doc+retrieval retrieval+augmented+generation许可:
mit这是 CoNaLa 数据集的重新划分。对于开发集和测试集中的每个代码片段,至少有一个函数被从训练集中排除。此划分旨在测试代码生成模型在生成未见过的函数方面的能力。我们进一步确保来自同一篇 StackOverflow 帖子(相同的 question_id)的示例位于同一划分中。
此数据集用于评估代码生成。
英语 - Python 代码。
dataset = load_dataset("neulab/docpromting-conala") DatasetDict({ train: Dataset({ features: ['nl', 'cmd', 'question_id', 'cmd_name', 'oracle_man', 'canonical_cmd'], num_rows: 2135 }) test: Dataset({ features: ['nl', 'cmd', 'question_id', 'cmd_name', 'oracle_man', 'canonical_cmd'], num_rows: 543 }) validation: Dataset({ features: ['nl', 'cmd', 'question_id', 'cmd_name', 'oracle_man', 'canonical_cmd'], num_rows: 201 }) }) }) code_docs = load_dataset("neulab/docprompting-conala", "docs") DatasetDict({ train: Dataset({ features: ['doc_id', 'doc_content'], num_rows: 34003 }) })
训练/开发/测试:
文档:
数据集是从 Stack Overflow 爬取的,经过自动过滤,然后由注释员进行了策展。有关详细信息,请参阅原始 paper
@article{zhou2022doccoder, title={DocCoder: Generating Code by Retrieving and Reading Docs}, author={Zhou, Shuyan and Alon, Uri and Xu, Frank F and JIang, Zhengbao and Neubig, Graham}, journal={arXiv preprint arXiv:2207.05987}, year={2022} }