数据集:
Nan-Do/code-search-net-javascript
该数据集是CodeSearchNet的JavaScript部分,带有一个摘要列。CodeSearchNet数据集包括GitHub上找到的带有注释的开源函数。摘要是函数功能的简要描述。
数据集的注释为英文,函数使用JavaScript编写。
训练、测试和验证标签以列的形式包含在数据集中。
2023年5月
该数据集可用于生成教学(或其他有趣的)数据集,对训练LLM非常有用。
CodeSearchNet数据集可在 https://www.kaggle.com/datasets/omduggineni/codesearchnet 中找到。
该数据集包括一个摘要列,其中包含函数的简要描述。
注释过程采用了 Salesforce 的T5摘要模型进行注释。可以在 https://github.com/Nan-Do/OpenAssistantInstructionResponsePython 中找到注释过程的示例笔记本。已经清理了注释,以确保没有重复和/或无意义的摘要(数据集中可能仍然存在一些)。
Apache 2.0