数据集:

yhavinga/ccmatrix

任务:

文生文

翻译

语言:

计算机处理:

multilingual

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:1911.04944 arxiv:1911.00359 arxiv:2010.11125

其他:

conditional-text-generation

许可:

license:unknown

数据集介绍文件清单

英文

CCMatrix v1 数据集卡片

数据集简介

该语料库是使用 https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix 中描述的基于边缘的双语挖掘技术从网络爬行中提取的。

90 种语言，1,197 个双语对
总文件数: 90
总标记数: 112.14G
总句子片段数: 7.37G

支持的任务和排行榜

[需要更多信息]

语言

为所有语言对的两个方向生成了配置。您可以在数据集描述的主页部分找到有效的语言对： https://opus.nlpl.eu/CCMatrix.php 。例如

from datasets import load_dataset
dataset = load_dataset("yhavinga/ccmatrix", "en-nl", streaming=True)

这将在流模式下打开 en-nl 数据集。如果不使用流模式，则下载和准备需要花费数十分钟。您可以使用以下命令检查元素：

print(next(iter(dataset['train'])))
{'id': 0, 'score': 1.2499677, 'translation': {'en': 'They come from all parts of Egypt, just like they will at the day of His coming.', 'nl': 'Zij kwamen uit alle delen van Egypte, evenals zij op de dag van Zijn komst zullen doen.'}}

数据集结构

数据示例

例如：

{
        "id": 1,
        "score": 1.2498379,
        "translation": {
            "nl": "En we moeten elke waarheid vals noemen die niet minstens door een lach vergezeld ging.”",
            "en": "And we should call every truth false which was not accompanied by at least one laugh.”"
        }
    }

数据字段

每个示例都包含一个从0开始的整数id、一个分数和一个翻译字典，其中包含语言1和语言2的文本。

数据拆分

仅提供了一个训练集。

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作人是谁？

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用该数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

如果您使用此数据，请参考引用文献[2][3]。

CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data 由 Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Jouli 和 Edouard Grave 创造。

CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB 由 Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave 和 Armand Joulin 创造。

Beyond English-Centric Multilingual Machine Translation 由 Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli 和 Armand Joulin 创造。

这个 HuggingFace CCMatrix 数据集是对 OPUS 进行包装的，其服务和文件由 Jörg Tiedemann 准备和托管：

Parallel Data, Tools and Interfaces in OPUS 由 Jörg Tiedemann 制作。

贡献

作者:

yhavinga

数据集大小:

31.25 KB