数据集:

code_x_glue_tt_text_to_text

任务:

翻译

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

c-uda
英文

“code_x_glue_tt_text_to_text”数据集的数据卡片

数据集概述

CodeXGLUE文本到文本数据集,可在 https://github.com/microsoft/CodeXGLUE/tree/main/Text-Text/text-to-text 处获取。

我们使用的数据集是从微软文档中爬取和过滤得到的,文档位于 https://github.com/MicrosoftDocs/ 处。

支持的任务和排行榜

  • 机器翻译:该数据集可用于训练将技术文档在不同语言之间进行翻译的模型。

语言

da_en, lv_en, no_en, zh_en

数据集结构

数据实例

da_en

'test'的一个示例如下所示。

{
    "id": 0, 
    "source": "4 . K\u00f8r modellen , og udgiv den som en webtjeneste .\n", 
    "target": "4 . Run the model , and publish it as a web service .\n"
}
lv_en

'train'的一个示例如下所示。

{
    "id": 0, 
    "source": "title : Pakalpojumu objektu izveide\n", 
    "target": "title : Create service objects\n"
}
no_en

'validation'的一个示例如下所示。

{
    "id": 0, 
    "source": "2 . \u00c5pne servicevaren du vil definere komponenter fra en stykkliste for .\n", 
    "target": "2 . Open the service item for which you want to set up components from a BOM .\n"
}
zh_en

'validation'的一个示例如下所示。

{
    "id": 0, 
    "source": "& # 124 ; MCDUserNotificationReadStateFilterAny & # 124 ; 0 & # 124 ; \u5305\u62ec \u901a\u77e5 , \u800c \u4e0d \u8003\u8651 \u8bfb\u53d6 \u72b6\u6001 \u3002 & # 124 ;\n", 
    "target": "&#124; MCDUserNotificationReadStateFilterAny &#124; 0 &#124; Include notifications regardless of read state . &#124;\n"
}

数据字段

以下是go中每个配置的每个数据字段的说明。数据字段在所有拆分中都是相同的。

da_en, lv_en, no_en, zh_en
field name type description
id int32 The index of the sample
source string The source language version of the text
target string The target language version of the text

数据拆分

name train validation test
da_en 42701 1000 1000
lv_en 18749 1000 1000
no_en 44322 1000 1000
zh_en 50154 1000 1000

数据集创建

策划理由

【需要更多信息】

源数据

初始数据收集和归一化

【需要更多信息】

源语言制作者是谁?

【需要更多信息】

注释

注释过程

【需要更多信息】

注释者是谁?

【需要更多信息】

个人和敏感信息

【需要更多信息】

使用数据的注意事项

数据的社会影响

【需要更多信息】

偏见讨论

【需要更多信息】

其他已知限制

【需要更多信息】

其他信息

数据集策划者

https://github.com/microsoft https://github.com/madlag

许可信息

计算数据使用协议(C-UDA)许可。

引用信息

@article{CodeXGLUE,
         title={CodeXGLUE: A Benchmark Dataset and Open Challenge for Code Intelligence},
         year={2020},}

贡献

感谢@madlag(部分感谢@ncoop57)添加此数据集。