数据集:

un_ga

任务:

翻译

计算机处理:

translation

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

[数据集名称] 的数据集卡片

数据集摘要

这是由Alexandre Rafalovitch和Robert Dale(参见 http://uncorpora.org )合作编译的一组来自联合国的翻译文件集合,最初被编译成一个翻译记忆。

支持的任务和排行榜

[待添加更多信息]

语言

[待添加更多信息]

数据集结构

数据实例

[待添加更多信息]

数据字段

[待添加更多信息]

数据划分

[待添加更多信息]

数据集创建

策划理由

[待添加更多信息]

源数据

初始数据收集和规范化

[待添加更多信息]

谁是源语言的生产者?

[待添加更多信息]

注释

注释过程

[待添加更多信息]

谁是注释者?

[待添加更多信息]

个人和敏感信息

[待添加更多信息]

使用数据需考虑的问题

数据的社会影响

[待添加更多信息]

偏见讨论

[待添加更多信息]

其他已知限制

[待添加更多信息]

其他信息

数据集策划者

[待添加更多信息]

许可信息

[待添加更多信息]

引用信息

@inproceedings{title = "United Nations General Assembly Resolutions: a six-language parallel corpus",abstract = "在本文中,我们描述了一个六种语言并行的公有领域语料库,包括2100个联合国大会决议,每种语言平均约300万个词元。 该语料库以预处理、格式化标准化的TMX格式提供,同时对多种语言的段落进行了对齐。 我们描述了该语料库的背景、内容、构建过程以及一些有趣的特点。",author = "Alexandre Rafalovitch和Robert Dale",year = "2009",language = "英文",booktitle = "MT Summit XII proceedings",publisher = "International Association of Machine Translation",}

贡献

感谢 @param087 添加了该数据集。