数据集:
Nan-Do/code-search-net-java
该数据集是CodeSearchNet的Java部分,并附带有摘要列。CodeSearchNet数据集包含GitHub上找到的开源函数,包括注释。摘要是函数功能的简短描述。
数据集的注释为英文,函数用Java编码。
数据集中包含训练、测试和验证标签的列。
2023年5月。
该数据集可用于生成有用于训练语言模型的教学(或其他有趣的)数据集。
CodeSearchNet数据集可在 https://www.kaggle.com/datasets/omduggineni/codesearchnet 处找到。
该数据集包括一个摘要列,其中包含函数的简短描述。
注释过程注释过程使用 Salesforce 个T5摘要模型完成。注释过程的示例笔记本可在 https://github.com/Nan-Do/OpenAssistantInstructionResponsePython 处找到。已清理注释以确保没有重复和/或无意义的摘要(数据集中可能仍有此类摘要)。
Apache 2.0