数据集:

code_x_glue_cc_code_to_code_trans

任务:

翻译

语言:

code

大小:

10K<n<100K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

c-uda
英文

"code_x_glue_cc_code_to_code_trans" 数据集卡片

数据集概述

CodeXGLUE的code-to-code-trans数据集,可在 https://github.com/microsoft/CodeXGLUE/tree/main/Code-Code/code-to-code-trans 找到

该数据集是从几个公共代码库中收集的,包括Lucene( http://lucene.apache.org/ ),POI( http://poi.apache.org/ ),JGit( https://github.com/eclipse/jgit/ )和Antlr( https://github.com/antlr/ )。我们收集了Java和C#代码的平行函数。删除重复项和空函数后,将整个数据集分为训练、验证和测试集。

支持的任务和排行榜

  • 机器翻译:该数据集可用于训练一个将Java代码翻译成C#代码或反之亦然的模型。

语言

  • Java编程语言
  • C#编程语言

数据集结构

数据实例

'验证'的一个示例如下所示。

{
    "cs": "public DVRecord(RecordInputStream in1){_option_flags = in1.ReadInt();_promptTitle = ReadUnicodeString(in1);_errorTitle = ReadUnicodeString(in1);_promptText = ReadUnicodeString(in1);_errorText = ReadUnicodeString(in1);int field_size_first_formula = in1.ReadUShort();_not_used_1 = in1.ReadShort();_formula1 = NPOI.SS.Formula.Formula.Read(field_size_first_formula, in1);int field_size_sec_formula = in1.ReadUShort();_not_used_2 = in1.ReadShort();_formula2 = NPOI.SS.Formula.Formula.Read(field_size_sec_formula, in1);_regions = new CellRangeAddressList(in1);}\n", 
    "id": 0, 
    "java": "public DVRecord(RecordInputStream in) {_option_flags = in.readInt();_promptTitle = readUnicodeString(in);_errorTitle = readUnicodeString(in);_promptText = readUnicodeString(in);_errorText = readUnicodeString(in);int field_size_first_formula = in.readUShort();_not_used_1 = in.readShort();_formula1 = Formula.read(field_size_first_formula, in);int field_size_sec_formula = in.readUShort();_not_used_2 = in.readShort();_formula2 = Formula.read(field_size_sec_formula, in);_regions = new CellRangeAddressList(in);}\n"
}

数据字段

下面解释了go中的每个数据字段的每个配置。数据字段在所有拆分之间是相同的。

default
field name type description
id int32 Index of the sample
java string The java version of the code
cs string The C# version of the code

数据拆分

name train validation test
default 10300 500 1000

数据集构建

策划理由

【需要更多信息】

源数据

初始数据收集和标准化

【需要更多信息】

谁是源语言生产者?

【需要更多信息】

注释

注释过程

【需要更多信息】

谁是标注者?

【需要更多信息】

个人和敏感信息

【需要更多信息】

使用数据的注意事项

数据的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

额外信息

数据集策划者

https://github.com/microsoft https://github.com/madlag

许可信息

数据计算使用协议(C-UDA)许可证。

引用信息

@article{CodeXGLUE,
         title={CodeXGLUE: A Benchmark Dataset and Open Challenge for Code Intelligence},
         year={2020},}

贡献

感谢@madlag(部分感谢@ncoop57)添加此数据集。