数据集:

wmt18

任务:

翻译

语言:

计算机处理:

translation

大小:

10M<n<100M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

extended|europarl_bilingual extended|news_commentary extended|opus_paracrawl

许可:

license:unknown

数据集介绍文件清单

英文

数据集"wmt18"的数据卡

数据集概要

警告：Common Crawl语料库数据存在问题（ training-parallel-commoncrawl.tgz ）：

非英文文件中含有许多英文句子。
它们与其英文对应句子的对齐存在问题：它们之间没有相关性。

我们已联系WMT组织者。

翻译数据集基于statmt.org的数据。

根据不同年份的版本，使用了多个数据源。基本数据集wmt允许您通过选择自己的数据/语言对来创建自定义数据集。操作如下：

from datasets import inspect_dataset, load_dataset_builder

inspect_dataset("wmt18", "path/to/scripts")
builder = load_dataset_builder(
    "path/to/scripts/wmt_utils.py",
    language_pair=("fr", "de"),
    subsets={
        datasets.Split.TRAIN: ["commoncrawl_frde"],
        datasets.Split.VALIDATION: ["euelections_dev2019"],
    },
)

# Standard version
builder.download_and_prepare()
ds = builder.as_dataset()

# Streamable version
ds = builder.as_streaming_dataset()

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

cs-en

下载的数据集文件大小：2.03 GB
生成的数据集大小：1.46 GB
总磁盘使用量：3.49 GB

'validation'的示例如下。

数据字段

所有拆分之间的数据字段相同。

cs-en

translation：一个多语言字符串变量，可能的语言包括cs，en。

数据拆分

name	train	validation	test
cs-en	11046024	3005	2983

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

源语言生产者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@InProceedings{bojar-EtAl:2018:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Federmann, Christian  and  Fishel, Mark
    and Graham, Yvette  and  Haddow, Barry  and  Huck, Matthias  and
    Koehn, Philipp  and  Monz, Christof},
  title     = {Findings of the 2018 Conference on Machine Translation (WMT18)},
  booktitle = {Proceedings of the Third Conference on Machine Translation,
    Volume 2: Shared Task Papers},
  month     = {October},
  year      = {2018},
  address   = {Belgium, Brussels},
  publisher = {Association for Computational Linguistics},
  pages     = {272--307},
  url       = {http://www.aclweb.org/anthology/W18-6401}
}

贡献

感谢 @thomwolf ， @patrickvonplaten 添加了这个数据集。

作者:

佚名

数据集大小:

79.05 KB

数据集"wmt18"的数据卡

数据集概要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献