数据集:

Nan-Do/code-search-net-python

英文

"code-search-net-python" 数据集卡片

数据集描述

数据集摘要

此数据集是CodeSarchNet的Python部分,带有一个摘要列。code-search-net数据集包含GitHub上找到的包含注释的开源函数。摘要是函数功能的简要描述。

语言

数据集的注释是用英语编写的,函数是用Python编写的

数据切分

数据集包含列为训练、测试和验证标签。

数据集创建

2023年5月

策划理由

此数据集可用于生成用于训练语言模型的教学(或其他有趣的)数据集

源数据

CodeSearchNet数据集可以在 https://www.kaggle.com/datasets/omduggineni/codesearchnet 处找到

注释

此数据集包含一个摘要列,其中包含函数的简要描述。

注释过程

注释过程使用 Salesforce T5摘要模型完成。注释过程的示例笔记本可以在 https://github.com/Nan-Do/OpenAssistantInstructionResponsePython 处找到。已清理注释,以确保没有重复和/或无意义的摘要(数据集中可能仍然存在一些)。

许可信息

Apache 2.0