数据集:
code_search_net
语言:
code计算机处理:
multilingual语言创建人:
machine-generated批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:1909.09436许可:
otherCodeSearchNet语料库是从GitHub上托管的开源库中提取的200万个(注释,代码)对的数据集。它包含多种编程语言的代码和文档。
CodeSearchNet语料库的收集是为了支持 CodeSearchNet challenge 项目,探索使用自然语言进行代码检索的问题。
一个数据点由函数代码及其文档组成。每个数据点还包含有关函数的元数据,例如提取该函数的存储库。
提供了三个拆分:
【需要更多信息】
所有信息都可以从 original technical review 中获取
语料库收集:从公开提供的开源非派生GitHub存储库中收集,使用libraries.io识别所有由至少一个其他项目使用的项目,并按照所显示的星级和分叉数量进行排序以确定“流行度”。
然后,删除任何没有许可证或其许可证未明确允许重新分发项目部分的项目。然后使用GitHub的通用解析器Treesitter对所有的Go、Java、JavaScript、Python、PHP和Ruby函数(或方法)进行标记化,并使用启发式的正则表达式标记它们的相应文档文本(如果有)。
语料库过滤:
将没有文档的函数从语料库中删除。这样就得到了一组由($c_i$, $d_i$)表示的函数-文档对,其中$c_i$是一些由$di$文档化的函数。将这些($c_i$,$d_i$)对通过以下预处理任务:
OpenSource贡献者贡献了代码和文档。
该数据集是自动收集和预处理的。
【需要更多信息】
注释者是谁?【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
数据集中的每个示例都是从GitHub存储库中提取的,并且每个存储库都有自己的许可证。此数据集尚未包含逐例的许可证信息:您需要自行找出代码使用的许可证。
@article{husain2019codesearchnet, title={{CodeSearchNet} challenge: Evaluating the state of semantic code search}, author={Husain, Hamel and Wu, Ho-Hsiang and Gazit, Tiferet and Allamanis, Miltiadis and Brockschmidt, Marc}, journal={arXiv preprint arXiv:1909.09436}, year={2019}}
感谢 @SBrandeis 添加了该数据集。