数据集:
neural_code_search
许可:
cc-by-nc-4.0预印本库:
arxiv:1908.09804语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original任务:
问答子任务:
extractive-qa语言:
en计算机处理:
monolingual神经-代码-搜索-评估-数据集提供了一个由自然语言查询和代码片段对组成的评估数据集,希望未来在这个领域的工作可以将这个数据集作为一个共同的基准。我们还提供了最近工作中两个代码搜索模型(NCS、UNIF)的结果。
[需要更多信息]
EN - 英语
搜索语料使用从24,549个GitHub存储库解析出的所有方法体进行索引。总共有4,716,814个方法体。代码搜索模型会根据自然语言查询从该语料库中找到相关的代码片段(即方法体)。在此数据发布中,我们将为语料库中的每个方法提供以下信息:
评估数据集评估数据集由287个Stack Overflow问题和答案对组成
[需要更多信息]
[需要更多信息]
我们使用GitHub上最受欢迎的Android存储库(按星级排名)创建了搜索语料库。对于我们索引的每个存储库,我们提供了链接,具体对应了使用的提交。总共有24,549个存储库。
源语言制作者是谁?[需要更多信息]
[需要更多信息]
标注者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
仅提供用于研究目的的数据集。请查看数据集许可证获取额外信息。
Hongyu Li,Seohyun Kim和Satish Chandra
CC-BY-NC 4.0(署名-非商业性-相同方式共享)
arXiv:1908.09804 [cs.SE]
感谢 @vinaykudari 添加了这个数据集。