数据集:

yhavinga/ccmatrix

英文

CCMatrix v1 数据集卡片

数据集简介

该语料库是使用 https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix 中描述的基于边缘的双语挖掘技术从网络爬行中提取的。

  • 90 种语言,1,197 个双语对
  • 总文件数: 90
  • 总标记数: 112.14G
  • 总句子片段数: 7.37G

支持的任务和排行榜

[需要更多信息]

语言

为所有语言对的两个方向生成了配置。您可以在数据集描述的主页部分找到有效的语言对: https://opus.nlpl.eu/CCMatrix.php 。例如

from datasets import load_dataset
dataset = load_dataset("yhavinga/ccmatrix", "en-nl", streaming=True)

这将在流模式下打开 en-nl 数据集。如果不使用流模式,则下载和准备需要花费数十分钟。您可以使用以下命令检查元素:

print(next(iter(dataset['train'])))
{'id': 0, 'score': 1.2499677, 'translation': {'en': 'They come from all parts of Egypt, just like they will at the day of His coming.', 'nl': 'Zij kwamen uit alle delen van Egypte, evenals zij op de dag van Zijn komst zullen doen.'}}

数据集结构

数据示例

例如:

{
        "id": 1,
        "score": 1.2498379,
        "translation": {
            "nl": "En we moeten elke waarheid vals noemen die niet minstens door een lach vergezeld ging.”",
            "en": "And we should call every truth false which was not accompanied by at least one laugh.”"
        }
    }

数据字段

每个示例都包含一个从0开始的整数id、一个分数和一个翻译字典,其中包含语言1和语言2的文本。

数据拆分

仅提供了一个训练集。

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作人是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用该数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

如果您使用此数据,请参考引用文献[2][3]。

  • CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data 由 Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán, Armand Jouli 和 Edouard Grave 创造。
  • CCMatrix: Mining Billions of High-Quality Parallel Sentences on the WEB 由 Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave 和 Armand Joulin 创造。
  • Beyond English-Centric Multilingual Machine Translation 由 Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli 和 Armand Joulin 创造。
  • 这个 HuggingFace CCMatrix 数据集是对 OPUS 进行包装的,其服务和文件由 Jörg Tiedemann 准备和托管:

    贡献