数据集:
code_x_glue_cc_clone_detection_poj104
任务:
文本检索子任务:
document-retrieval语言:
code计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
found源数据集:
original许可:
c-udaCodeXGLUE克隆检测-POJ-104数据集,可在 https://github.com/microsoft/CodeXGLUE/tree/main/Code-Code/Clone-detection-POJ-104 找到。
给定一段代码和一个候选集作为输入,任务是返回具有相同语义的前K个代码。模型通过MAP分数进行评估。我们在此任务中使用POJ-104数据集。
'train'的一个示例如下所示。
{ "code": "\nint f(int shu,int min)\n{ \n int k=1;\n if(shu < min)\n { \n k= 0; \n return k;\n } \n else\n {\n for(int i = min;i<shu;i++)\n { \n if(shu%i == 0)\n { \n k=k+ f(shu/i,i); \n } \n \n \n } \n return k; \n}\n} \n\nmain()\n{\n int n,i,a;\n scanf(\"%d\",&n);\n \n for(i=0;i<n;i++)\n {\n scanf(\"%d\",&a);\n \n if(i!=n-1) \n printf(\"%d\\n\",f(a,2));\n else\n printf(\"%d\",f(a,2)); \n \n \n \n } \n \n \n }", "id": 0, "label": "home" }
下面解释了go中每个配置的每个数据字段。各个拆分之间的数据字段相同。
defaultfield name | type | description |
---|---|---|
id | int32 | Index of the sample |
code | string | The full text of the function |
label | string | The id of problem that the source code solves |
name | train | validation | test |
---|---|---|---|
default | 32000 | 8000 | 12000 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
https://github.com/microsoft , https://github.com/madlag
数据的计算使用协议(C-UDA)许可证。
@inproceedings{mou2016convolutional, title={Convolutional neural networks over tree structures for programming language processing}, author={Mou, Lili and Li, Ge and Zhang, Lu and Wang, Tao and Jin, Zhi}, booktitle={Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence}, pages={1287--1293}, year={2016} }
感谢@madlag(部分上也包括@ncoop57)添加了此数据集。