数据集:
definite_pronoun_resolution
任务:
标记分类语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original许可:
license:unknown该数据集由作者的本科课程中的30名学生组成。这些句子对涵盖了各种主题,包括真实事件(例如,伊朗计划袭击沙特驻美大使)、电影中的事件/角色(例如,蝙蝠侠)以及纯粹的想象情境,主要反映了20世纪90年代初出生的美国孩子们对流行文化的认知。每个带有注释的示例跨越四行:第一行包含句子,第二行包含目标代词,第三行包含两个候选的先行词,第四行包含正确的先行词。如果目标代词在句子中出现多次,则解析的是其第一次出现的位置。
'train' 的一个示例如下所示。
{ "candidates": ["coreference resolution", "chunking"], "label": 0, "pronoun": "it", "sentence": "There is currently more work on coreference resolution than on chunking because it is a problem that is still far from being solved." }
数据字段在所有拆分中都相同。
plain_textname | train | test |
---|---|---|
plain_text | 1322 | 564 |
@inproceedings{rahman2012resolving, title={Resolving complex cases of definite pronouns: the winograd schema challenge}, author={Rahman, Altaf and Ng, Vincent}, booktitle={Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning}, pages={777--789}, year={2012}, organization={Association for Computational Linguistics} }
感谢 @thomwolf , @lewtun , @patrickvonplaten 提供此数据集。