数据集:

allenai/nllb

英文

No Language Left Behind (NLLB - 200vo) 数据集卡片

数据集概述

该数据集是基于Meta AI发布的 metadata 挖掘的双语数据集创建而成。使用停用词挖掘库和LASER3编码器(Heffernan等,2022年),包含148种以英语为中心的语言对和1465种以非英语为中心的语言对。完整的数据集大小约为450GB。

CCMatrix 包括之前版本的挖掘指令。

数据使用方法

访问数据有两种方式:

  • 通过Hugging Face Python数据集库访问

要访问特定的 language pair

from datasets import load_dataset
dataset = load_dataset("allenai/nllb", "ace_Latn-ban_Latn")
  • 克隆git存储库
git lfs install
git clone https://huggingface.co/datasets/allenai/nllb

支持的任务和排行榜

N/A

语言

可以在 here 中找到语言对。

数据集结构

该数据集包含每个方向的gzipped分隔的文本文件。每个文本文件包含具有平行句子的行。

数据实例

每个语言对的实例数可以在 dataset_infos.json 文件中找到。

数据字段

每个语言对的实例包含以下字段:'translation'(包含句子对),'laser_score','source_sentence_lid','target_sentence_lid',其中'lid'是语言分类概率,'source_sentence_source','source_sentence_url','target_sentence_source','target_sentence_url'。

  • 第一语言的句子
  • 第二语言的句子
  • LASER得分
  • 第一个句子的语言ID得分
  • 第二个句子的语言ID得分
  • 第一个句子的来源(参见 Source Data Table
  • 如果来源是crawl-data/*,为第一个句子的URL;否则为_
  • 第二个句子的来源
  • 如果来源是crawl-data/*,为第二个句子的URL;否则为_

这些行按LASER3得分递减的顺序排序。

示例:

{'translation': {'ace_Latn': 'Gobnyan hana geupeukeucewa gata atawa geutinggai meunan mantong gata."',
  'ban_Latn': 'Ida nenten jaga manggayang wiadin ngutang semeton."'},
 'laser_score': 1.2499876022338867,
 'source_sentence_lid': 1.0000100135803223,
 'target_sentence_lid': 0.9991400241851807,
 'source_sentence_source': 'paracrawl9_hieu',
 'source_sentence_url': '_',
 'target_sentence_source': 'crawl-data/CC-MAIN-2020-10/segments/1581875144165.4/wet/CC-MAIN-20200219153707-20200219183707-00232.warc.wet.gz',
 'target_sentence_url': 'https://alkitab.mobi/tb/Ula/31/6/\n'}

数据拆分

数据没有经过拆分。鉴于整个过程的嘈杂性质,我们建议仅将该数据用于训练,并使用其他数据集(如 Flores-200 )进行评估。数据包括来自其他数据集(如xlsum)的一些开发和测试集。此外,从多个网络爬虫中获取数据可能会与其他测试集产生偶然的重叠。

数据集创建

策划理由

数据基于语言识别、基于表情符号的过滤以及对一些高资源语言使用语言模型进行了过滤。有关数据过滤的更多细节,请参阅第5.2节(NLLB Team等人,2022年)。

源数据

初始数据收集和规范化

文本数据收集自网络和各种单语数据集,其中许多也是网络爬虫。这些文本可能由人编写、模板生成,或者在某些情况下是机器翻译的输出。

注释

注释过程

使用LASER3编码器(Heffernan等人,2022年)识别了单语数据中的平行句子。

注释者是谁?

数据不是由人员注释的。

个人和敏感信息

数据可能包含在互联网上公开共享的个人身份信息、敏感内容或有毒内容。

使用数据的考虑事项

数据的社会影响

该数据集为训练低资源语言的机器学习系统提供了数据。

偏倚讨论

尚未对数据中的偏倚进行具体研究,但由于原始数据的来源是万维网,因此该数据可能具有与互联网中普遍存在的偏倚类似的偏倚。数据还可能具有语言识别和数据过滤技术引入的偏倚;资源较低的语言通常具有较低的准确性。

其他已知限制

有些翻译实际上是机器翻译。尽管可以从HTML源代码中识别一些网站的机器翻译工具,但由于某些来源的原始HTML不可用,并且CommonCrawl处理从WET文件开始,因此没有大规模过滤这些工具。

附加信息

数据集策划者

数据没有进行策划。

许可信息

该数据集遵循 ODC-BY 的条款发布。使用该数据集还受限于原始来源的使用条款和许可。

引用信息

Schwenk等人,CCMatrix: Mining Billions of High-Quality Parallel Sentences on the Web. ACL https://aclanthology.org/2021.acl-long.507/ Hefferman等人,Bitext Mining Using Distilled Sentence Representations for Low-Resource Languages. Arxiv https://arxiv.org/abs/2205.12654 ,2022年。NLLB团队等人,No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv https://arxiv.org/abs/2207.04672 ,2022年。

贡献

我们感谢NLLB Meta AI团队开源元数据和使用说明,特别鸣谢Bapi Akula、Pierre Andrews、Onur Çelebi、Sergey Edunov、Kenneth Heafield、Philipp Koehn、Alex Mourachko、Safiyyah Saleem、Holger Schwenk和Guillaume Wenzek。我们还要感谢AI2的AllenNLP团队提供主机和发布这些数据,包括Akshita Bhagia(为主机数据进行工程努力,并创建huggingface数据集)和Jesse Dodge(为组织连接工作)。