数据集:

projecte-aina/wnli-ca

语言:

ca

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|glue

许可:

cc-by-4.0
英文

WNLI-ca

数据集概要

"Winograd模式是一对仅在一个或两个单词上有差异的句子,这些句子包含一个在两个句子中以相反方式解决的歧义,并且需要使用世界知识和推理来解决。该模式以Terry Winograd的名字命名。"来源: The Winograd Schema Challenge

该数据集共有855个句子配对,第一个句子中存在一个歧义,第二个句子是对其可能的解释。标签指示解释是否正确(1)或不正确(0)。

这个数据集是 GLUE Benchmark 中发布的 Winograd NLI dataset 的加泰罗尼亚语专业翻译。

原始数据集和此翻译都在 Creative Commons Attribution 4.0 International License 下获得许可。

支持的任务和排行榜

文本蕴含、文本分类、语言模型。

语言

该数据集使用加泰罗尼亚语(ca-CA)。

数据集结构

数据实例

三个tsv文件。

数据字段

  • 索引
  • 句子1:配对的第一个句子
  • 句子2:配对的第二个句子
  • 标签:两个句子之间的关系:
    • 0:第二个句子不包含第一个句子的正确解释(中性)
    • 1:第二个句子包含第一个句子的正确解释(蕴涵)

示例

index sentence 1 sentence 2 label
0 Vaig clavar una agulla en una pastanaga. Quan la vaig treure, tenia un forat. La pastanaga tenia un forat. 1
1 En Joan no podia veure l’escenari amb en Guillem davant seu perquè és molt baix. En Joan és molt baix. 1
2 Els policies van arrestar tots els membres de la banda. Volien aturar el tràfic de drogues del barri. Els policies volien aturar el tràfic de drogues del barri. 1
3 L’Esteve segueix els passos d’en Frederic en tot. L’influencia moltíssim. L’Esteve l’influencia moltíssim. 0

数据拆分

  • wnli-train-ca.csv:636
  • wnli-dev-ca.csv:72
  • wnli-test-shuffled-ca.csv:147

数据集创建

策划理由

我们翻译了这个数据集,以促进加泰罗尼亚语的语言模型的发展,加泰罗尼亚语是一种资源稀缺的语言,并且可以进行跨语言比较。

数据来源

初始数据收集和规范化

这是 WNLI dataset 的加泰罗尼亚语专业翻译,由BSC TeMU在 Projecte AINA 中委托完成。

有关Winograd NLI数据集的创建方式的更多信息,请访问网页 The Winograd Schema Challenge

谁是源语言的制作人?

有关Winograd NLI数据集的创建方式的更多信息,请访问网页 The Winograd Schema Challenge

注释

注释流程

我们委托专业翻译将 WNLI dataset 翻译成加泰罗尼亚语。

谁是标注者?

翻译是由专业翻译人员完成的。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

该数据集有助于加泰罗尼亚语的语言模型的发展,这是一种资源稀缺的语言。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)。

该工作是在 Projecte AINA 框架内,由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 资助完成的。

许可信息

该工作根据 CC Attribution 4.0 International License 获得许可。

贡献

[N/A]