数据集:

opus100

任务:

翻译

语言:

计算机处理:

translation

大小:

100K<n<1M 10K<n<100K 1K<n<10K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

extended

预印本库:

arxiv:2004.11867

许可:

license:unknown

数据集介绍文件清单

英文

Opus100 数据集卡片

数据集概述

OPUS-100 是以英语为中心的，意味着所有的训练对都包含英语，无论是源语言还是目标语言。该语料库涵盖了100种语言（包括英语）。选取了基于OPUS中可用的平行数据量的语言。

支持的任务和排行榜

[需要更多信息]

语言

OPUS-100 包含大约5500万句对。在99种语言对中，有44个语言对有100万个句对的训练数据，73个有至少10万个句对，95个有至少1万个句对。

数据集结构

数据实例

{
  "ca": "El departament de bombers té el seu propi equip d'investigació.",
  "en": "Well, the fire department has its own investigative unit."
}

数据字段

src_tag: string 源语言中的文本
tgt_tag: string 源语言翻译为目标语言的翻译

数据拆分

该数据集分为训练集、开发集和测试集部分。数据是通过随机抽样每个语言对的句子对进行训练，每个语言对最多使用2000个句子对进行开发和测试。为了确保训练集和开发/测试集之间没有句子级别的重叠，他们在抽样过程中应用了过滤器来排除已经被抽样的句子。请注意，这是在跨语言的条件下进行的，因此训练数据中葡萄牙语-英语部分的英语句子不会出现在印地语-英语测试集中。

数据集创建

策划原因

[需要更多信息]

原始数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@misc{zhang2020improving,
      title={Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation}, 
      author={Biao Zhang and Philip Williams and Ivan Titov and Rico Sennrich},
      year={2020},
      eprint={2004.11867},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献者

感谢 @vasudevgupta7 添加了此数据集。

作者:

佚名

数据集大小:

240.97 KB