数据集:

Nan-Do/code-search-net-java

英文

"code-search-net-java" 数据集卡片

数据集简介

该数据集是CodeSearchNet的Java部分,并附带有摘要列。CodeSearchNet数据集包含GitHub上找到的开源函数,包括注释。摘要是函数功能的简短描述。

语言

数据集的注释为英文,函数用Java编码。

数据拆分

数据集中包含训练、测试和验证标签的列。

数据集创建

2023年5月。

策展理由

该数据集可用于生成有用于训练语言模型的教学(或其他有趣的)数据集。

源数据

CodeSearchNet数据集可在 https://www.kaggle.com/datasets/omduggineni/codesearchnet 处找到。

注释

该数据集包括一个摘要列,其中包含函数的简短描述。

注释过程

注释过程使用 Salesforce 个T5摘要模型完成。注释过程的示例笔记本可在 https://github.com/Nan-Do/OpenAssistantInstructionResponsePython 处找到。已清理注释以确保没有重复和/或无意义的摘要(数据集中可能仍有此类摘要)。

许可信息

Apache 2.0