数据集:

PlanTL-GOB-ES/wnli-es

许可:

cc-by-4.0

源数据集:

extended|glue

批注创建人:

expert-generated

语言创建人:

found

大小:

size_categories:unknown

计算机处理:

monolingual

语言:

子任务:

natural-language-inference

任务:

文本分类

数据集介绍文件清单

英文

WNLI-es

数据集概述

"Winograd模式是一对只有一个或两个单词不同的句子，这些句子在对一个歧义性的解决上有相反的方式，并且需要使用世界知识和推理来解决。该模式的名称源自Terry Winograd。"来源： The Winograd Schema Challenge 。

Winograd NLI dataset 包含855对句子，第一个句子中含有一个歧义，而第二个句子则是对其可能解释的一种方式。标签指示了解释是否正确（1）或不正确（0）。

该数据集是 Winograd NLI dataset 的西班牙语专业翻译，发布在 GLUE Benchmark 上。

原始数据集和此翻译版本都在 Creative Commons Attribution 4.0 International License 下获得许可。

支持的任务和排行榜

文本蕴含，文本分类，语言模型。

语言

西班牙语（es）

数据集结构

数据实例

三个tsv文件。

数据字段

索引
句子1：句子对的第一个句子
句子2：句子对的第二个句子
标签：两个句子之间的关系：
- 0：第二个句子没有正确解释第一个句子（中性）
- 1：第二个句子蕴含第一个句子的正确解释（蕴含）

数据拆分

wnli-train-es.csv：636个句子对
wnli-dev-es.csv：72个句子对
wnli-test-shuffled-es.csv：147个句子对

数据集创建

策划理由

我们翻译了该数据集以促进西班牙语语言模型的发展。

来源数据

GLUE Benchmark site

初始数据收集和规范化

这是 WNLI dataset 的专业西班牙语翻译，由 BSC TeMU 委托，作为 Plan-TL 框架下的一部分。

有关Winograd NLI数据集创建的更多信息，请访问网页 The Winograd Schema Challenge 。

谁是源语言制作人？

有关Winograd NLI数据集创建的更多信息，请访问网页 The Winograd Schema Challenge 。

注释

注释过程

我们委托专业翻译机构对 WNLI dataset 进行翻译。

谁是注释者？

翻译委托给了专业翻译机构。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

该数据集有助于西班牙语语言模型的发展。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

巴塞罗那超级计算中心（BSC）的文本挖掘单元（TeMU）(bsc-temu@bsc.es)。

如需进一步了解，请发送电子邮件至(plantl-gob-es@bsc.es)。

本工作由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 在 Plan-TL 框架下资助。

许可信息

本作品根据 CC Attribution 4.0 International 许可证进行许可。

贡献

[N/A]

作者:

PlanTL-GOB-ES

数据集大小:

165.98 KB