数据集:

Nan-Do/code-search-net-javascript

英文

"code-search-net-javascript" 的数据集卡片

数据集摘要

该数据集是CodeSearchNet的JavaScript部分,带有一个摘要列。CodeSearchNet数据集包括GitHub上找到的带有注释的开源函数。摘要是函数功能的简要描述。

语言

数据集的注释为英文,函数使用JavaScript编写。

数据拆分

训练、测试和验证标签以列的形式包含在数据集中。

数据集创建

2023年5月

策划理由

该数据集可用于生成教学(或其他有趣的)数据集,对训练LLM非常有用。

源数据

CodeSearchNet数据集可在 https://www.kaggle.com/datasets/omduggineni/codesearchnet 中找到。

注释

该数据集包括一个摘要列,其中包含函数的简要描述。

注释过程

采用了 Salesforce 的T5摘要模型进行注释。可以在 https://github.com/Nan-Do/OpenAssistantInstructionResponsePython 中找到注释过程的示例笔记本。已经清理了注释,以确保没有重复和/或无意义的摘要(数据集中可能仍然存在一些)。

许可信息

Apache 2.0