数据集:

definite_pronoun_resolution

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original
英文

"definite_pronoun_resolution" 数据集卡片

数据集概述

该数据集由作者的本科课程中的30名学生组成。这些句子对涵盖了各种主题,包括真实事件(例如,伊朗计划袭击沙特驻美大使)、电影中的事件/角色(例如,蝙蝠侠)以及纯粹的想象情境,主要反映了20世纪90年代初出生的美国孩子们对流行文化的认知。每个带有注释的示例跨越四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选的先行词,第四行包含正确的先行词。如果目标代词在句子中出现多次,则解析的是其第一次出现的位置。

支持的任务和榜单

More Information Needed

语言

More Information Needed

数据集结构

数据实例

plain_text
  • 下载的数据集文件大小:0.23 MB
  • 生成的数据集大小:0.24 MB
  • 使用的总磁盘空间:0.47 MB

'train' 的一个示例如下所示。

{
    "candidates": ["coreference resolution", "chunking"],
    "label": 0,
    "pronoun": "it",
    "sentence": "There is currently more work on coreference resolution than on chunking because it is a problem that is still far from being solved."
}

数据字段

数据字段在所有拆分中都相同。

plain_text
  • 句子:字符串特征。
  • 代词:字符串特征。
  • 候选先行词:字符串特征列表。
  • 标签:分类标签,可能的取值包括0(0)、1(1)。

数据拆分

name train test
plain_text 1322 564

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

源语言制作者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据时的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集维护者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{rahman2012resolving,
  title={Resolving complex cases of definite pronouns: the winograd schema challenge},
  author={Rahman, Altaf and Ng, Vincent},
  booktitle={Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning},
  pages={777--789},
  year={2012},
  organization={Association for Computational Linguistics}
}

贡献者

感谢 @thomwolf @lewtun @patrickvonplaten 提供此数据集。