数据集:

projecte-aina/wnli-ca

任务:

文本分类

子任务:

natural-language-inference

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|glue

许可:

cc-by-4.0

数据集介绍文件清单

英文

WNLI-ca

数据集概要

"Winograd模式是一对仅在一个或两个单词上有差异的句子，这些句子包含一个在两个句子中以相反方式解决的歧义，并且需要使用世界知识和推理来解决。该模式以Terry Winograd的名字命名。"来源： The Winograd Schema Challenge 。

该数据集共有855个句子配对，第一个句子中存在一个歧义，第二个句子是对其可能的解释。标签指示解释是否正确（1）或不正确（0）。

这个数据集是 GLUE Benchmark 中发布的 Winograd NLI dataset 的加泰罗尼亚语专业翻译。

原始数据集和此翻译都在 Creative Commons Attribution 4.0 International License 下获得许可。

支持的任务和排行榜

文本蕴含、文本分类、语言模型。

语言

该数据集使用加泰罗尼亚语（ca-CA）。

数据集结构

数据实例

三个tsv文件。

数据字段

索引
句子1：配对的第一个句子
句子2：配对的第二个句子
标签：两个句子之间的关系：
- 0：第二个句子不包含第一个句子的正确解释（中性）
- 1：第二个句子包含第一个句子的正确解释（蕴涵）

示例

index	sentence 1	sentence 2	label
0	Vaig clavar una agulla en una pastanaga. Quan la vaig treure, tenia un forat.	La pastanaga tenia un forat.	1
1	En Joan no podia veure l’escenari amb en Guillem davant seu perquè és molt baix.	En Joan és molt baix.	1
2	Els policies van arrestar tots els membres de la banda. Volien aturar el tràfic de drogues del barri.	Els policies volien aturar el tràfic de drogues del barri.	1
3	L’Esteve segueix els passos d’en Frederic en tot. L’influencia moltíssim.	L’Esteve l’influencia moltíssim.	0

数据拆分

wnli-train-ca.csv：636
wnli-dev-ca.csv：72
wnli-test-shuffled-ca.csv：147

数据集创建

策划理由

我们翻译了这个数据集，以促进加泰罗尼亚语的语言模型的发展，加泰罗尼亚语是一种资源稀缺的语言，并且可以进行跨语言比较。

数据来源

GLUE Benchmark site

初始数据收集和规范化

这是 WNLI dataset 的加泰罗尼亚语专业翻译，由BSC TeMU在 Projecte AINA 中委托完成。

有关Winograd NLI数据集的创建方式的更多信息，请访问网页 The Winograd Schema Challenge 。

谁是源语言的制作人？

有关Winograd NLI数据集的创建方式的更多信息，请访问网页 The Winograd Schema Challenge 。

注释

注释流程

我们委托专业翻译将 WNLI dataset 翻译成加泰罗尼亚语。

谁是标注者？

翻译是由专业翻译人员完成的。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

该数据集有助于加泰罗尼亚语的语言模型的发展，这是一种资源稀缺的语言。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

巴塞罗那超级计算中心（BSC）的文本挖掘单元（TeMU）（bsc-temu@bsc.es）。

该工作是在 Projecte AINA 框架内，由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 资助完成的。

许可信息

该工作根据 CC Attribution 4.0 International License 获得许可。

贡献

[N/A]

作者:

projecte-aina

数据集大小:

173.11 KB