数据集:

PlanTL-GOB-ES/wnli-es

许可:

cc-by-4.0

源数据集:

extended|glue

批注创建人:

expert-generated

语言创建人:

found

计算机处理:

monolingual

语言:

es
英文

WNLI-es

数据集概述

"Winograd模式是一对只有一个或两个单词不同的句子,这些句子在对一个歧义性的解决上有相反的方式,并且需要使用世界知识和推理来解决。该模式的名称源自Terry Winograd。"来源: The Winograd Schema Challenge

Winograd NLI dataset 包含855对句子,第一个句子中含有一个歧义,而第二个句子则是对其可能解释的一种方式。标签指示了解释是否正确(1)或不正确(0)。

该数据集是 Winograd NLI dataset 的西班牙语专业翻译,发布在 GLUE Benchmark 上。

原始数据集和此翻译版本都在 Creative Commons Attribution 4.0 International License 下获得许可。

支持的任务和排行榜

文本蕴含,文本分类,语言模型。

语言

  • 西班牙语(es)

数据集结构

数据实例

三个tsv文件。

数据字段

  • 索引
  • 句子1:句子对的第一个句子
  • 句子2:句子对的第二个句子
  • 标签:两个句子之间的关系:
    • 0:第二个句子没有正确解释第一个句子(中性)
    • 1:第二个句子蕴含第一个句子的正确解释(蕴含)

数据拆分

  • wnli-train-es.csv:636个句子对
  • wnli-dev-es.csv:72个句子对
  • wnli-test-shuffled-es.csv:147个句子对

数据集创建

策划理由

我们翻译了该数据集以促进西班牙语语言模型的发展。

来源数据

初始数据收集和规范化

这是 WNLI dataset 的专业西班牙语翻译,由 BSC TeMU 委托,作为 Plan-TL 框架下的一部分。

有关Winograd NLI数据集创建的更多信息,请访问网页 The Winograd Schema Challenge

谁是源语言制作人?

有关Winograd NLI数据集创建的更多信息,请访问网页 The Winograd Schema Challenge

注释

注释过程

我们委托专业翻译机构对 WNLI dataset 进行翻译。

谁是注释者?

翻译委托给了专业翻译机构。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

该数据集有助于西班牙语语言模型的发展。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)。

如需进一步了解,请发送电子邮件至(plantl-gob-es@bsc.es)。

本工作由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) Plan-TL 框架下资助。

许可信息

本作品根据 CC Attribution 4.0 International 许可证进行许可。

版权所有:西班牙数字化和人工智能国务秘书处(SEDIA)(2022年)

贡献

[N/A]