数据集:
code_x_glue_cc_code_to_code_trans
任务:
翻译语言:
code计算机处理:
other-programming-languages大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original其他:
code-to-code许可:
c-udaCodeXGLUE的code-to-code-trans数据集,可在 https://github.com/microsoft/CodeXGLUE/tree/main/Code-Code/code-to-code-trans 找到
该数据集是从几个公共代码库中收集的,包括Lucene( http://lucene.apache.org/ ),POI( http://poi.apache.org/ ),JGit( https://github.com/eclipse/jgit/ )和Antlr( https://github.com/antlr/ )。我们收集了Java和C#代码的平行函数。删除重复项和空函数后,将整个数据集分为训练、验证和测试集。
'验证'的一个示例如下所示。
{ "cs": "public DVRecord(RecordInputStream in1){_option_flags = in1.ReadInt();_promptTitle = ReadUnicodeString(in1);_errorTitle = ReadUnicodeString(in1);_promptText = ReadUnicodeString(in1);_errorText = ReadUnicodeString(in1);int field_size_first_formula = in1.ReadUShort();_not_used_1 = in1.ReadShort();_formula1 = NPOI.SS.Formula.Formula.Read(field_size_first_formula, in1);int field_size_sec_formula = in1.ReadUShort();_not_used_2 = in1.ReadShort();_formula2 = NPOI.SS.Formula.Formula.Read(field_size_sec_formula, in1);_regions = new CellRangeAddressList(in1);}\n", "id": 0, "java": "public DVRecord(RecordInputStream in) {_option_flags = in.readInt();_promptTitle = readUnicodeString(in);_errorTitle = readUnicodeString(in);_promptText = readUnicodeString(in);_errorText = readUnicodeString(in);int field_size_first_formula = in.readUShort();_not_used_1 = in.readShort();_formula1 = Formula.read(field_size_first_formula, in);int field_size_sec_formula = in.readUShort();_not_used_2 = in.readShort();_formula2 = Formula.read(field_size_sec_formula, in);_regions = new CellRangeAddressList(in);}\n" }
下面解释了go中的每个数据字段的每个配置。数据字段在所有拆分之间是相同的。
defaultfield name | type | description |
---|---|---|
id | int32 | Index of the sample |
java | string | The java version of the code |
cs | string | The C# version of the code |
name | train | validation | test |
---|---|---|---|
default | 10300 | 500 | 1000 |
【需要更多信息】
【需要更多信息】
谁是源语言生产者?【需要更多信息】
【需要更多信息】
谁是标注者?【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
https://github.com/microsoft , https://github.com/madlag
数据计算使用协议(C-UDA)许可证。
@article{CodeXGLUE, title={CodeXGLUE: A Benchmark Dataset and Open Challenge for Code Intelligence}, year={2020},}
感谢@madlag(部分感谢@ncoop57)添加此数据集。