数据集:

neural_code_search

许可:

cc-by-nc-4.0

预印本库:

arxiv:1908.09804

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

大小:

n<1K 1M<n<10M

任务:

问答

子任务:

extractive-qa

语言:

计算机处理:

monolingual

数据集介绍文件清单

英文

神经代码搜索数据集卡片

数据集摘要

神经-代码-搜索-评估-数据集提供了一个由自然语言查询和代码片段对组成的评估数据集，希望未来在这个领域的工作可以将这个数据集作为一个共同的基准。我们还提供了最近工作中两个代码搜索模型（NCS、UNIF）的结果。

支持的任务和排行榜

[需要更多信息]

语言

EN - 英语

数据集结构

数据实例

搜索语料

搜索语料使用从24,549个GitHub存储库解析出的所有方法体进行索引。总共有4,716,814个方法体。代码搜索模型会根据自然语言查询从该语料库中找到相关的代码片段（即方法体）。在此数据发布中，我们将为语料库中的每个方法提供以下信息：

评估数据集

评估数据集由287个Stack Overflow问题和答案对组成

数据字段

搜索语料

id：语料库中的每个方法都有一个唯一的数字标识符。该ID号也将在我们的评估数据集中引用。
文件路径：文件路径的格式为：owner/repo/相对于仓库的文件路径-方法名称
起始行：方法在文件中的起始行号。
结束行：方法在文件中的结束行号。
URL：指向带有提交ID和行号编码的方法体的GitHub链接。

评估数据集

stackoverflow_id：Stack Overflow帖子ID。
question：Stack Overflow帖子的标题。
question_url：Stack Overflow帖子的URL。
answer：问题的代码片段答案。

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

我们使用GitHub上最受欢迎的Android存储库（按星级排名）创建了搜索语料库。对于我们索引的每个存储库，我们提供了链接，具体对应了使用的提交。总共有24,549个存储库。

源语言制作者是谁？

[需要更多信息]

标注

注释过程

[需要更多信息]

标注者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅提供用于研究目的的数据集。请查看数据集许可证获取额外信息。

附加信息

数据集策划者

Hongyu Li，Seohyun Kim和Satish Chandra

许可信息

CC-BY-NC 4.0（署名-非商业性-相同方式共享）

引用信息

arXiv:1908.09804 [cs.SE]

贡献

感谢 @vinaykudari 添加了这个数据集。

作者:

佚名

数据集大小:

17.98 KB