英文

"instructional_code-search-net-python" 数据集卡片

数据集简介

这是一个关于Python的教学性数据集。该数据集包含两种不同的任务:

  • 给定一段代码,生成描述其功能的文本。
  • 给定一个描述,生成满足描述功能的代码。

语言

该数据集使用英文。

数据集划分

无划分。

数据集创建

2023年5月

策划理由

创建此数据集旨在提升语言模型对编码的能力。

源数据

代码搜索网络数据集的摘要版本可在 https://huggingface.co/datasets/Nan-Do/code-search-net-python 找到。

注释

该数据集包括指令和响应列。

注释过程

注释过程使用模板和自然语言处理技术生成人类风格的指令和响应。注释过程的示例笔记本可在 https://github.com/Nan-Do/OpenAssistantInstructionResponsePython 找到。已清理注释,以确保没有重复和/或无意义的摘要。

许可信息

Apache 2.0