数据集:

Muennighoff/flores200

英文

Flores200 数据集卡片

数据集概述

FLORES 是一个用于英语和资源匮乏语言之间机器翻译的基准数据集。

FLORES200 数据集扩展了已有的 FLORES-101 语言覆盖范围。鉴于新语言的特性,这些语言缺乏标准化,需要更多专业翻译人员参与,因此验证过程更加复杂。这就需要对翻译工作流程进行修改。FLORES-200 中有几种语言不是从英语翻译而来的。具体而言,有几种语言是从西班牙语、法语、俄语和现代标准阿拉伯语翻译而来的。此外,FLORES-200 还包括四种语言的两种脚本替代方案。FLORES-200 包含了来自842篇不同网页文章的翻译,总共3001个句子。这些句子被分为三个部分:开发集、开发测试集和测试集(隐藏)。平均而言,句子大约有21个词长度。

免责声明:*Flores200 数据集由 Facebook 托管,并根据 Creative Commons Attribution-ShareAlike 4.0 International License 许可证授权。

支持的任务和排行榜

多语种机器翻译。

有关 FLORES-101 在 WMT2021 共享任务的背景下的模型评估的详细信息,请参阅 Dynabench leaderboard 。Flores 200 是其扩展。

语言

数据集包含200种语言的平行句子,如项目的原始 Github 页中所述。语言使用 ISO 639-3 代码标识(例如 eng、fra、rus),加上一个描述脚本的附加代码(例如 "eng_Latn"、"ukr_Cyrl")。参见 the webpage for code descriptions 。使用配置 "all" 可以访问单个命令中所有可用语言的完整平行句子集。使用连字符组合两种语言以获取一个数据点中的两种语言(例如 "eng_Latn-ukr_Cyrl" 将提供以下格式的句子)。

数据集结构

数据实例

下面是来自俄语(ukr_Cyrl配置)的开发集示例。所有配置具有相同的结构,并且所有句子在配置和拆分之间都是对齐的。

{
    'id': 1,
    'sentence': 'У понеділок, науковці зі Школи медицини Стенфордського університету оголосили про винайдення нового діагностичного інструменту, що може сортувати клітини за їх видами: це малесенький друкований чіп, який можна виготовити за допомогою стандартних променевих принтерів десь по одному центу США за штуку.',
    'URL': 'https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet',
    'domain': 'wikinews',
    'topic': 'health',
    'has_image': 0,
    'has_hyperlink': 0
}

当使用连字符组合或使用 "all" 函数时,数据将如下所示:

{
    'id': 1, 
    'URL': 'https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet', 
    'domain': 'wikinews', 
    'topic': 'health', 
    'has_image': 0, 
    'has_hyperlink': 0, 
    'sentence_eng_Latn': 'On Monday, scientists from the Stanford University School of Medicine announced the invention of a new diagnostic tool that can sort cells by type: a tiny printable chip that can be manufactured using standard inkjet printers for possibly about one U.S. cent each.', 
    'sentence_ukr_Cyrl': 'У понеділок, науковці зі Школи медицини Стенфордського університету оголосили про винайдення нового діагностичного інструменту, що може сортувати клітини за їх видами: це малесенький друкований чіп, який можна виготовити за допомогою стандартних променевих принтерів десь по одному центу США за штуку.'
}

文本按照原始数据集提供,没有进一步的预处理或分词。

数据字段

  • id: 数据条目的行号,从1开始。
  • sentence: 特定语言中的完整句子(可能带有_language用于配对)
  • URL: 提取句子的英语文章的URL。
  • domain: 句子所属的领域。
  • topic: 句子的主题。
  • has_image: 原始文章是否包含图像。
  • has_hyperlink: 句子是否包含超链接。

数据拆分

config dev devtest
all configurations 997 1012:

数据集创建

有关数据集创建的详细信息,请参阅原始文章 No Language Left Behind: Scaling Human-Centered Machine Translation

附加信息

数据集创建者

详见论文中的详细信息。

许可信息

使用知识共享署名 4.0 相同方式共享许可证。许可证可在 here 处获得。

引用信息

如果您在工作中使用了这些语料库,请引用作者。

@article{nllb2022,
  author    = {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi,  Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang},
  title     = {No Language Left Behind: Scaling Human-Centered Machine Translation},
  year      = {2022}
}