数据集:
allenai/wmt22_african
此数据集基于Meta AI发布的 metadata 个挖掘比特文本创建而成。它包含了 2022 WMT Shared Task on Large Scale Machine Translation Evaluation for African Languages 中的非洲语言的248个对应语言的比特文本。
如何使用数据有两种访问数据的方式:
from datasets import load_dataset dataset = load_dataset("allenai/wmt22_african")
git lfs install git clone https://huggingface.co/datasets/allenai/wmt22_african
此数据集是 2022 WMT Shared Task on Large Scale Machine Translation Evaluation for African Languages 中约束轨道下允许的资源之一。
Language | Code |
---|---|
Afrikaans | afr |
Amharic | amh |
Chichewa | nya |
Nigerian Fulfulde | fuv |
Hausa | hau |
Igbo | ibo |
Kamba | kam |
Kinyarwanda | kin |
Lingala | lin |
Luganda | lug |
Luo | luo |
Northern Sotho | nso |
Oroma | orm |
Shona | sna |
Somali | som |
Swahili | swh |
Swati | ssw |
Tswana | tsn |
Umbundu | umb |
Wolof | wol |
Xhosa | xho |
Xitsonga | tso |
Yoruba | yor |
Zulu | zul |
殖民殖民语言: 英语 - eng, 法语 - fra
数据集包含每个方向的压缩制表符分隔的文本文件。每个文本文件包含平行句子。
数据集包含248个语言对。
每对的句子计数可以在 here 中找到。
每个语言对的实例包含以下字段: "translation" (包含句子对), "laser_score", "source_sentence_lid", "target_sentence_lid",其中'lid'是语言分类的概率。
示例:
{ 'translation': { 'afr': 'In Mei 2007, in ooreenstemming met die spesifikasies van die Java Gemeenskapproses, het Sun Java tegnologie geherlisensieer onder die GNU General Public License.', 'eng': 'As of May 2007, in compliance with the specifications of the Java Community Process, Sun relicensed most of its Java technologies under the GNU General Public License.' }, 'laser_score': 1.0717015266418457, 'source_sentence_lid': 0.9996600151062012, 'target_sentence_lid': 0.9972000122070312 }
数据未分成训练、开发和测试集。
通过 Language-Agnostic Sentence Representation (LASER) 编码器识别了Common Crawl和ParaCrawl中的单语数据的平行句子。
单语数据来自Common Crawl和ParaCrawl。
谁是源语言制作者?Common Crawl和ParaCrawl中的网络文本贡献者。
数据未经人工注释。用于创建数据集的元数据可以在这里找到: https://github.com/facebookresearch/LASER/tree/main/data/wmt22_african
谁是注释者?数据未经人工注释。通过 LASER 编码器自动识别Common Crawl和Para Crawl单语数据的平行文本。
[需要更多信息]
此数据集为训练对于NLP而言具有很少资源的许多语言的机器学习系统提供了数据。
数据中的偏见尚未研究。
[需要更多信息]
[需要更多信息]
数据集根据 ODC-BY 条款发布。使用此数据集也受到互联网档案馆 Terms of Use 条款的约束,关于数据集中包含的内容。
NLLB团队等,No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv, 2022.
感谢AI2的AllenNLP团队托管和发布此数据,包括 Akshita Bhagia (为创建HuggingFace数据集的工程努力)和 Jesse Dodge (为组织连接)。