数据集:

allenai/wmt22_african

英文

allenai/wmt22_african数据集卡片

数据集概述

此数据集基于Meta AI发布的 metadata 个挖掘比特文本创建而成。它包含了 2022 WMT Shared Task on Large Scale Machine Translation Evaluation for African Languages 中的非洲语言的248个对应语言的比特文本。

如何使用数据

有两种访问数据的方式:

  • 通过Hugging Face Python数据集库
from datasets import load_dataset
dataset = load_dataset("allenai/wmt22_african")
  • 克隆git repo
git lfs install
git clone https://huggingface.co/datasets/allenai/wmt22_african

支持的任务和排行榜

此数据集是 2022 WMT Shared Task on Large Scale Machine Translation Evaluation for African Languages 中约束轨道下允许的资源之一。

语言

焦点语言
Language Code
Afrikaans afr
Amharic amh
Chichewa nya
Nigerian Fulfulde fuv
Hausa hau
Igbo ibo
Kamba kam
Kinyarwanda kin
Lingala lin
Luganda lug
Luo luo
Northern Sotho nso
Oroma orm
Shona sna
Somali som
Swahili swh
Swati ssw
Tswana tsn
Umbundu umb
Wolof wol
Xhosa xho
Xitsonga tso
Yoruba yor
Zulu zul

殖民殖民语言: 英语 - eng, 法语 - fra

数据集结构

数据集包含每个方向的压缩制表符分隔的文本文件。每个文本文件包含平行句子。

数据实例

数据集包含248个语言对。

每对的句子计数可以在 here 中找到。

数据字段

每个语言对的实例包含以下字段: "translation" (包含句子对), "laser_score", "source_sentence_lid", "target_sentence_lid",其中'lid'是语言分类的概率。

示例:

{
'translation': 
    {
        'afr': 'In Mei 2007, in ooreenstemming met die spesifikasies van die Java Gemeenskapproses, het Sun Java tegnologie geherlisensieer onder die GNU General Public License.', 
        'eng': 'As of May 2007, in compliance with the specifications of the Java Community Process, Sun relicensed most of its Java technologies under the GNU General Public License.'
    }, 
'laser_score': 1.0717015266418457, 
'source_sentence_lid': 0.9996600151062012, 
'target_sentence_lid': 0.9972000122070312
}

数据拆分

数据未分成训练、开发和测试集。

数据集创建

策划理由

通过 Language-Agnostic Sentence Representation (LASER) 编码器识别了Common Crawl和ParaCrawl中的单语数据的平行句子。

源数据

初始数据收集和归一化

单语数据来自Common Crawl和ParaCrawl。

谁是源语言制作者?

Common Crawl和ParaCrawl中的网络文本贡献者。

注释

注释过程

数据未经人工注释。用于创建数据集的元数据可以在这里找到: https://github.com/facebookresearch/LASER/tree/main/data/wmt22_african

谁是注释者?

数据未经人工注释。通过 LASER 编码器自动识别Common Crawl和Para Crawl单语数据的平行文本。

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

此数据集为训练对于NLP而言具有很少资源的许多语言的机器学习系统提供了数据。

偏见讨论

数据中的偏见尚未研究。

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

数据集根据 ODC-BY 条款发布。使用此数据集也受到互联网档案馆 Terms of Use 条款的约束,关于数据集中包含的内容。

引用信息

NLLB团队等,No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv, 2022.

贡献

感谢AI2的AllenNLP团队托管和发布此数据,包括 Akshita Bhagia (为创建HuggingFace数据集的工程努力)和 Jesse Dodge (为组织连接)。