数据集:
code_x_glue_tt_text_to_text
CodeXGLUE文本到文本数据集,可在 https://github.com/microsoft/CodeXGLUE/tree/main/Text-Text/text-to-text 处获取。
我们使用的数据集是从微软文档中爬取和过滤得到的,文档位于 https://github.com/MicrosoftDocs/ 处。
da_en, lv_en, no_en, zh_en
'test'的一个示例如下所示。
{ "id": 0, "source": "4 . K\u00f8r modellen , og udgiv den som en webtjeneste .\n", "target": "4 . Run the model , and publish it as a web service .\n" }lv_en
'train'的一个示例如下所示。
{ "id": 0, "source": "title : Pakalpojumu objektu izveide\n", "target": "title : Create service objects\n" }no_en
'validation'的一个示例如下所示。
{ "id": 0, "source": "2 . \u00c5pne servicevaren du vil definere komponenter fra en stykkliste for .\n", "target": "2 . Open the service item for which you want to set up components from a BOM .\n" }zh_en
'validation'的一个示例如下所示。
{ "id": 0, "source": "& # 124 ; MCDUserNotificationReadStateFilterAny & # 124 ; 0 & # 124 ; \u5305\u62ec \u901a\u77e5 , \u800c \u4e0d \u8003\u8651 \u8bfb\u53d6 \u72b6\u6001 \u3002 & # 124 ;\n", "target": "| MCDUserNotificationReadStateFilterAny | 0 | Include notifications regardless of read state . |\n" }
以下是go中每个配置的每个数据字段的说明。数据字段在所有拆分中都是相同的。
da_en, lv_en, no_en, zh_enfield name | type | description |
---|---|---|
id | int32 | The index of the sample |
source | string | The source language version of the text |
target | string | The target language version of the text |
name | train | validation | test |
---|---|---|---|
da_en | 42701 | 1000 | 1000 |
lv_en | 18749 | 1000 | 1000 |
no_en | 44322 | 1000 | 1000 |
zh_en | 50154 | 1000 | 1000 |
【需要更多信息】
【需要更多信息】
源语言制作者是谁?【需要更多信息】
【需要更多信息】
注释者是谁?【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
https://github.com/microsoft , https://github.com/madlag
计算数据使用协议(C-UDA)许可。
@article{CodeXGLUE, title={CodeXGLUE: A Benchmark Dataset and Open Challenge for Code Intelligence}, year={2020},}
感谢@madlag(部分感谢@ncoop57)添加此数据集。