数据集:

cmrc2018

任务:

问答

子任务:

extractive-qa

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

"cmrc2018" 数据集概览

数据集摘要

这是一个用于中文机器阅读理解的抽取式问题数据集，旨在为该领域添加语言多样性。该数据集由人工专家在维基百科段落上注释了近20,000个真实问题。我们还对一个挑战集进行了注释，其中包含需要全面理解和多句推理的问题。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认

下载的数据集文件大小：11.50 MB
生成的数据集大小：22.31 MB
总磁盘使用量：33.83 MB

'验证'的一个示例如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [11, 11],
        "text": ["光荣和ω-force", "光荣和ω-force"]
    },
    "context": "\"《战国无双3》（）是由光荣和ω-force开发的战国无双系列的正统第三续作。本作以三大故事为主轴，分别是以武田信玄等人为主的《关东三国志》，织田信长等人为主的《战国三杰》，石田三成等人为主的《关原的年轻武者》，丰富游戏内的剧情。此部份专门介绍角色，欲知武...",
    "id": "DEV_0_QUERY_0",
    "question": "《战国无双3》是由哪两个公司合作开发的？"
}

数据字段

数据字段在所有拆分中都是相同的。

默认

id：字符串特征。
上下文：字符串特征。
问题：字符串特征。
答案：包含以下内容的字典特征：
- 文本：字符串特征。
- 答案起始位置：int32特征。

数据拆分

name	train	validation	test
default	10142	3219	1002

数据集创建

策划理由

More Information Needed

源数据

数据收集和规范化

More Information Needed

资源语言的制作者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的考虑因素

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{cui-emnlp2019-cmrc2018,
    title = "A Span-Extraction Dataset for {C}hinese Machine Reading Comprehension",
    author = "Cui, Yiming  and
      Liu, Ting  and
      Che, Wanxiang  and
      Xiao, Li  and
      Chen, Zhipeng  and
      Ma, Wentao  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-1600",
    doi = "10.18653/v1/D19-1600",
    pages = "5886--5891",
}

贡献

感谢 @patrickvonplaten ， @mariamabarham ， @lewtun ， @thomwolf 添加了该数据集。

作者:

佚名

数据集大小:

16.78 KB

"cmrc2018" 数据集概览

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的考虑因素

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策划者

许可信息

引用信息

贡献