数据集:

MoritzLaurer/multilingual-NLI-26lang-2mil7

英文

多语言NLI-26语言-2mil7数据集数据表

数据集概述

该数据集包含了26种语言的2,730,000个NLI文本对,这些语言由超过40亿人口使用。该数据集可用于训练多语言NLI(自然语言推理)模型或零样本分类。该数据集基于英语数据集 MultiNLI Fever-NLI ANLI LingNLI WANLI ,使用最新的开源机器翻译模型创建而成。

该数据集的设计是为了补充已建立的多语言数据集 XNLI 。XNLI包含了2018年MultiNLI数据集的14种语言的旧版机器翻译,以及每种语言用于验证的2490个文本和用于测试的5010个文本的人工翻译。multilingual-NLI-26lang-2mil7从5个不同的NLI数据集中获取,每种语言包含了105,000个机器翻译文本,总共2,730,000个NLI文本对。

该数据集的发布还附带了经过微调的 mDeBERTa-v3-base-xnli-multilingual-nli-2mil7 模型,可用于100种语言的NLI或零样本分类。

数据集创建

数据集中包含的语言为:['ar', 'bn', 'de', 'es', 'fa', 'fr', 'he', 'hi', 'id', 'it', 'ja', 'ko', 'mr', 'nl', 'pl', 'ps', 'pt', 'ru', 'sv', 'sw', 'ta', 'tr', 'uk', 'ur', 'vi', 'zh'](参见 ISO language codes ),加上原始的英语文本。语言的选择基于两个标准:(1)它们要么包含在 20 most spoken languages 列表中(不包括泰卢固语和尼日利亚皮钦语,因为没有可用的机器翻译模型);(2)或者它们是政治经济重要国家如 G20 或伊朗和以色列的通用语言。

对于这26种语言中的每一种,从以下四个数据集中抽取了不同的25,000个假设-前提对样本: MultiNLI (总共392,702个文本)、 Fever-NLI (196,805个文本)、 ANLI (162,865个文本)和 WANLI (102,885个文本)。此外,从 LingNLI (29,985个文本)中抽取了5,000个文本样本,因为其总体规模较小。这样,每个目标语言有105,000个源文本的随机样本,具有来自5个不同NLI数据集的数据的多样化分布。

然后使用每种语言的最新开源机器翻译模型对每个样本进行机器翻译:

  • 针对英语到['ar', 'es', 'fr', 'it', 'pt', 'tr']的语言,使用 opus-mt-tc-big models
  • 针对英语到['de', 'he', 'hi', 'id', 'mr', 'nl', 'ru', 'sv', 'sw', 'uk', 'ur', 'vi', 'zh']的语言,使用 opus-mt-models
  • 针对其他语言['bn', 'fa', 'ja', 'ko', 'pl', 'ps', 'ta'],使用 m2m100_1.2B

数据集结构

数据划分

数据集包含130个划分(26 * 5),每个划分对应语言-数据集对,格式为"{language-iso}_{dataset}". 例如,划分'zh_mnli'包含了MultiNLI数据集的25,000个文本的中文翻译等。

数据字段

  • premise_original:来自英语源数据集的原始前提
  • hypothesis_original:来自英语源数据集的原始假设
  • label:分类标签,可能的值为entailment(0)、neutral(1)和contradiction(2)
  • premise:目标语言中的机器翻译前提
  • hypothesis:目标语言中的机器翻译假设

数据实例示例:

{
    "premise_original": "I would not be surprised if the top priority for the Navy was to build a new carrier.",
    "hypothesis_original": "The top priority for the Navy is to build a new carrier.",
    "label": 1, 
    "premise": "Ich würde mich nicht wundern, wenn die oberste Priorität für die Navy wäre, einen neuen Träger zu bauen.",
    "hypothesis": "Die oberste Priorität für die Navy ist es, einen neuen Träger zu bauen."
}

限制和偏差

机器翻译不如人工翻译好。机器翻译可能引入不准确性,对于NLI这样的复杂任务可能会有问题。在理想的情况下,可用于多种语言的原始NLI数据将是可利用的。鉴于缺乏NLI数据,使用最新的开源机器翻译似乎是改进多语言NLI的好解决方案。您可以使用Hugging Face数据查看器检查数据并验证您所关注的语言的翻译质量。请注意,对于零样本的用例来说,语法错误不太重要,因为对于这些应用程序,语法相对不那么相关。

其他

对整个数据集进行机器翻译大约需要100个小时,使用A100 GPU,特别是因为 m2m100_1.2B 模型的规模。

合作或问题的想法?

要获取有关新模型和数据集的更新,请关注我的 Twitter 页面。如果您有问题或合作的想法,请通过m{dot}laurer{at}vu{dot}nl或 LinkedIn 与我联系。

引用信息

如果该数据集对您有用,请引用以下文章:

@article{laurer_less_2022,
    title = {Less {Annotating}, {More} {Classifying} – {Addressing} the {Data} {Scarcity} {Issue} of {Supervised} {Machine} {Learning} with {Deep} {Transfer} {Learning} and {BERT} - {NLI}},
    url = {https://osf.io/74b8k},
    language = {en-us},
    urldate = {2022-07-28},
    journal = {Preprint},
    author = {Laurer, Moritz and Atteveldt, Wouter van and Casas, Andreu Salleras and Welbers, Kasper},
    month = jun,
    year = {2022},
    note = {Publisher: Open Science Framework},
}