数据集:

winograd_wsc

语言:

en

计算机处理:

monolingual

大小:

n<1K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0
英文

The Winograd Schema Challenge数据集卡

数据集摘要

Winograd schema是一对仅在一个或两个词上有差异的句子,这些句子在两个句子中以相反的方式解决了一个歧义,并且需要使用世界知识和推理来解决。该模式的名称来自Terry Winograd的一个著名示例:

市议会议员拒绝为示威者发放许可证,因为他们 [害怕/倡导] 暴力。

如果是"害怕",则"他们"可能指的是市议会;如果是"倡导",则"他们"可能指的是示威者。

支持的任务和评估

官方网页上写道:

Winograd Schema Challenge的比赛曾于2016年举行一次。当时,为在比赛中达到人类水平的表现提供现金奖金。此后,赞助商已撤回奖金;因此无法根据在此挑战中的任何性能或成就提供或颁发现金奖金。

语言

数据集为英文。

Translation of 12 WSs into Chinese (由Wei Xu翻译)。

由田中宗一郎,Rafal Rzepka和Shiho Katajima进行的日语翻译 **将英文名字更改为日语 创造了以下版本:** PDF HTML 保留英文名字的翻译 PDF HTML

由Pascal Amsili和Olga Seminck创造的 Translation into French,

由Gabriela Melo,Vinicius Imaizumi和Fábio Cozman创造的 Winograd Schemas in Portuguese

由Timothée Bernard和Ting Han于LREC-2020创作的 Mandarinograd: A Chinese Collection of Winograd Schemas

数据集结构

数据实例

每个实例包含一个文本段落,其中有一个指定的代词和两个可能的答案,表示代词所指的实体。一个示例实例如下所示:

{
  'label': 0,
  'options': ['The city councilmen', 'The demonstrators'],
  'pronoun': 'they',
  'pronoun_loc': 63,
  'quote': 'they feared violence',
  'quote_loc': 63,
  'source': '(Winograd 1972)',
  'text': 'The city councilmen refused the demonstrators a permit because they feared violence.'
}

数据字段

  • text(str):文本序列
  • options(list[str]):代词可能指的两个实体选项
  • label(int):正确选项在options字段中的索引
  • pronoun(str):序列中要解析的代词
  • pronoun_loc(int):代词在序列中的起始位置
  • quote(str):代词周围的关键动作或上下文的子字符串
  • quote_loc(int):引号在序列中的起始位置
  • source(str):说明贡献示例的来源

数据拆分

仅包含测试拆分。

数据集创建

策划理由

Winograd Schema Challenge被提出作为评估人工智能系统的常识语言理解的自动化方式。来自网页的说法:

这个挑战的优势在于它是明确的,每个模式的答案都是二选一的选择;生动,非专家都明显看出未能获得正确答案的程序在其理解方面存在严重的差距;困难,远超过当前的技术水平。

来源数据

初始数据收集和标准化

该数据由专家手动编写,目标是:

  • 被人类读者轻松消除歧义(理想情况下,消除歧义如此容易,以至于读者甚至没有注意到有一个歧义存在);

  • 不能通过简单的技术(如选择限制)解决;

  • 无法通过文本语料库的明显统计测试可靠地消除歧义。

谁是源语言制片人?

这个数据集随时间而增长,所以是由各种语言和AI研究人员创作的。有关每个实例的来源,请参阅source字段。

注释

注释流程

注释是由构建示例的专家生成的。

注释者是谁?

见上文。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划

这个数据集随时间而增长,所以是由各种语言和AI研究人员创作的。有关每个实例的来源,请参阅source字段。

许可信息

对此工作进行了许可,许可类型为 Creative Commons Attribution 4.0 International License

引用信息

Winograd Schema Challenge,包括这里的许多示例,由 Levesque et al 2012 提出:

@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012},
  organization={Citeseer}
}

贡献

感谢 @joeddav 添加了这个数据集。