数据集:

hackathon-pln-es/nli-es

预印本库:

arxiv:1809.05053
英文

annotations_creators:

  • crowdsourced
  • otherlanguage_creators:
  • other
  • crowdsourcedlanguages:
  • eslicenses:
  • cc-by-sa-4.0multilinguality:
  • monolingualpretty_name: ESnlisize_categories:
  • unknownsource_datasets:
  • extended|snli
  • extended|xnli
  • extended|multi_nlitask_categories:
  • text-classificationtask_ids:
  • natural-language-inference

nli-es 数据集卡片

数据集概要

这是一个由以下来源组成的西班牙语自然语言推理数据集:

  • XNLI 数据集的西班牙语部分;
  • SNLI 数据集的机器翻译版本(西班牙语);
  • Multinli 数据集的机器翻译版本(西班牙语);

支持的任务和排行榜

[需要更多信息]

语言

数据集中只有少部分是人工生成的原始西班牙语文本,其余部分是通过自动翻译生成的。

数据集结构

数据实例

每一行包含四个值:句子1(前提),句子2(假设),标签(指示两者之间的关系),以及原始数据集中的句子对的ID号码。

标签可以为 "entailment"(前提包含假设),"contradiction"(前提与假设相矛盾),或者 "neutral"(即不支持也不否认)。

{ "gold_label": "neutral", "pairID": 1, "sentence1": "A ver si nos tenemos que poner todos en huelga hasta cobrar lo que queramos.", "sentence2": "La huelga es el método de lucha más eficaz para conseguir mejoras en el salario." }

数据字段

gold_label: 字符串,表示句子对的关系。标签可以为 "entailment"(前提包含假设),"contradiction"(前提与假设相矛盾),或者 "neutral"(即不支持也不否认)。

pairID: 字符串,用于标识句子对。该字段继承自原始数据集。注意:由于目前我们在加在该列时遇到了困难,因此我们用整数0作为占位符替代了每个字符串。我们希望尽快使pairID恢复正常。

sentence1: 字符串,包含一句西班牙语的前提。(参见gold_label)

sentence2: 字符串,包含一句西班牙语的假设。(参见gold_label)

数据拆分

整个数据集已用于训练。我们没有使用评估集,因为我们使用了SemEval-2015任务2。

数据集创建

策划理由

构建该语料库是为了解决缺乏用于NLI的西班牙文注释语料集的问题。通过使用Argos将SNLI原始数据集翻译为西班牙语,生成了该语料集。尽管机器翻译远非语义分类的理想来源,但它有助于扩大可用的数据量。

数据源

初始数据收集与规范化

请参考原始数据集的相关文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

谁是源语言的制作人?

请参考原始数据集的相关文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

注释

注释过程

请参考原始数据集的相关文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

谁是注释者?

请参考原始数据集的相关文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

个人和敏感信息

一般来说,句子中没有传达敏感信息。请参考原始数据集的相关文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

使用数据的注意事项

数据的社会影响

该数据集的目的是为西班牙语句子的语义文本相似性分析提供新的工具。

偏见讨论

请参考原始数据集的相关文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

其他已知限制

这些句子的翻译主要是无监督的,并且可能在语料库中引入一些噪音。从英文语料库进行机器翻译可能会生成与西班牙语母语者产生的句法和词汇形式不同的形式。讨论原始数据集的偏见和限制,请参考它们各自的文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

附加信息

数据集策展人员

nli-es数据集由Anibal Pérez、Lautaro Gesuelli、Mauricio Mazuecos和Emilio Tomás Ariza组成。

许可信息

该语料库基于 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License 授权。有关原始数据集的许可信息,请参考它们各自的文档: https://nlp.stanford.edu/projects/snli/ https://arxiv.org/pdf/1809.05053.pdf https://cims.nyu.edu/~sbowman/multinli/

引用信息

如果您需要引用此数据集,可以链接到此自述文件。