数据集:

opus100

任务:

翻译

计算机处理:

translation

语言创建人:

found

批注创建人:

no-annotation

源数据集:

extended

预印本库:

arxiv:2004.11867
英文

Opus100 数据集卡片

数据集概述

OPUS-100 是以英语为中心的,意味着所有的训练对都包含英语,无论是源语言还是目标语言。该语料库涵盖了100种语言(包括英语)。选取了基于OPUS中可用的平行数据量的语言。

支持的任务和排行榜

[需要更多信息]

语言

OPUS-100 包含大约5500万句对。在99种语言对中,有44个语言对有100万个句对的训练数据,73个有至少10万个句对,95个有至少1万个句对。

数据集结构

数据实例

{
  "ca": "El departament de bombers té el seu propi equip d'investigació.",
  "en": "Well, the fire department has its own investigative unit."
}

数据字段

  • src_tag: string 源语言中的文本
  • tgt_tag: string 源语言翻译为目标语言的翻译

数据拆分

该数据集分为训练集、开发集和测试集部分。数据是通过随机抽样每个语言对的句子对进行训练,每个语言对最多使用2000个句子对进行开发和测试。为了确保训练集和开发/测试集之间没有句子级别的重叠,他们在抽样过程中应用了过滤器来排除已经被抽样的句子。请注意,这是在跨语言的条件下进行的,因此训练数据中葡萄牙语-英语部分的英语句子不会出现在印地语-英语测试集中。

数据集创建

策划原因

[需要更多信息]

原始数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{zhang2020improving,
      title={Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation}, 
      author={Biao Zhang and Philip Williams and Ivan Titov and Rico Sennrich},
      year={2020},
      eprint={2004.11867},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献者

感谢 @vasudevgupta7 添加了此数据集。