数据集:

cdsc

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original

语言:

pl

计算机处理:

monolingual

大小:

10K<n<100K
英文

数据集卡片:[数据集名称]

数据集概述

Polish CDSCorpus 包含10k个波兰语语句对,这些语句对已经由人类标注为语义关联和蕴含关系。该数据集可用于评估波兰语的组合分布语义模型。该数据集在ACL 2017上进行了演示。详细描述请参考 Wróblewska 和 Krasnowska-Kieraś (2017)。

支持的任务和排行榜

[需要更多信息]

语言

波兰语

数据集结构

数据实例

[需要更多信息]

数据字段

  • pair_ID: 句子对的id
  • sentence_A: 第一句话
  • sentence_B: 第二句话

cdsc-e领域:

  • entailment_judgment: 可能是'NEUTRAL', 'CONTRADICTION' 或 'ENTAILMENT'

cdsc-r领域:

  • relatedness_score: 表示相关度的浮点数

数据拆分

数据被拆分为训练集/验证集/测试集。

数据集创建

策划理由

[需要更多信息]

数据源

数据收集和标准化

[需要更多信息]

数据源语言的制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

仅供研究目的提供的数据集。有关详细信息,请查看数据集许可证。

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC-SA 4.0

引用信息

[需要更多信息]

贡献者

感谢 @abecadel 添加此数据集。