数据集:

mwsc

任务:

多项选择

子任务:

multiple-choice-coreference-resolution

语言:

计算机处理:

monolingual

大小:

n<1K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

extended|winograd_wsc

预印本库:

arxiv:1806.08730

许可:

cc-by-4.0

数据集介绍文件清单

英文

The modified Winograd Schema Challenge（MWSC）数据集卡片

数据集摘要

这里的例子是从Winograd Schema Challenge修改而来，以确保答案都是上下文中的单词。这个Modified Winograd Schema Challenge（MWSC）确保分数不会因措辞的怪异而被夸大或被贬低。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default

下载的数据集文件大小：0.02 MB
生成的数据集大小：0.04 MB
使用的总磁盘空间：0.06 MB

一个例子如下所示：

{
    "sentence": "The city councilmen refused the demonstrators a permit because they feared violence.",
    "question": "Who feared violence?",
    "options": [ "councilmen", "demonstrators" ],
    "answer": "councilmen"
}

数据字段

数据字段在所有拆分中都是相同的。

default

sentence: 字符串特征。
question: 字符串特征。
options: 字符串特征列表。
answer: 字符串特征。

数据拆分

name	train	validation	test
default	80	82	100

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言制作者？

More Information Needed

注释

注释过程

More Information Needed

谁是注释者？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策划

More Information Needed

许可信息

我们运行decaNLP的代码采用了BSD-3-Clause开源许可。

我们选择将decaNLP限制在免费且公开可用的研究数据集上，但如果您从此用例偏离，应该检查它们的个别条款。

来自 Winograd Schema Challenge ：

这两个版本的数据集都在 Creative Commons Attribution 4.0 International License 下获得了许可。

引用信息

如果您在工作中使用了此数据集，请引用：

@article{McCann2018decaNLP,
  title={The Natural Language Decathlon: Multitask Learning as Question Answering},
  author={Bryan McCann and Nitish Shirish Keskar and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:1806.08730},
  year={2018}
}

贡献

感谢 @thomwolf ， @lewtun ， @ghomasHudson 和 @lhoestq 添加了这个数据集。

作者:

佚名

数据集大小:

13.84 KB

The modified Winograd Schema Challenge（MWSC）数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划

许可信息

引用信息

贡献