数据集:
opus100
任务:
翻译计算机处理:
translation语言创建人:
found批注创建人:
no-annotation源数据集:
extended预印本库:
arxiv:2004.11867许可:
license:unknownOPUS-100 是以英语为中心的,意味着所有的训练对都包含英语,无论是源语言还是目标语言。该语料库涵盖了100种语言(包括英语)。选取了基于OPUS中可用的平行数据量的语言。
[需要更多信息]
OPUS-100 包含大约5500万句对。在99种语言对中,有44个语言对有100万个句对的训练数据,73个有至少10万个句对,95个有至少1万个句对。
{ "ca": "El departament de bombers té el seu propi equip d'investigació.", "en": "Well, the fire department has its own investigative unit." }
该数据集分为训练集、开发集和测试集部分。数据是通过随机抽样每个语言对的句子对进行训练,每个语言对最多使用2000个句子对进行开发和测试。为了确保训练集和开发/测试集之间没有句子级别的重叠,他们在抽样过程中应用了过滤器来排除已经被抽样的句子。请注意,这是在跨语言的条件下进行的,因此训练数据中葡萄牙语-英语部分的英语句子不会出现在印地语-英语测试集中。
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@misc{zhang2020improving, title={Improving Massively Multilingual Neural Machine Translation and Zero-Shot Translation}, author={Biao Zhang and Philip Williams and Ivan Titov and Rico Sennrich}, year={2020}, eprint={2004.11867}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @vasudevgupta7 添加了此数据集。