数据集:

qa4mre

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

other

源数据集:

original
英文

qa4mre的数据集卡片

数据集概要

QA4MRE数据集是为CLEF 2011/2012/2013共享任务创建的,旨在推动问答和阅读理解的研究。该数据集包含一段支持材料和一组与材料相关的问题。对于每个问题,提供了多个答案选项,只有一个是正确的。主要跟踪的训练和测试数据集可用。两个试点研究还提供了两个金标准文档:一个关于阿尔茨海默病数据,另一个关于入学考试数据。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

2011.main.DE
  • 下载的数据集文件大小:0.22 MB
  • 生成的数据集大小:1.75 MB
  • 总计使用的磁盘空间:1.97 MB

'train'的一个示例如下

2011.main.EN
  • 下载的数据集文件大小:0.20 MB
  • 生成的数据集大小:1.57 MB
  • 总计使用的磁盘空间:1.77 MB

'train'的一个示例如下

2011.main.ES
  • 下载的数据集文件大小:0.22 MB
  • 生成的数据集大小:1.70 MB
  • 总计使用的磁盘空间:1.91 MB

'train'的一个示例如下

2011.main.IT
  • 下载的数据集文件大小:0.21 MB
  • 生成的数据集大小:1.67 MB
  • 总计使用的磁盘空间:1.88 MB

'train'的一个示例如下

2011.main.RO
  • 下载的数据集文件大小:0.22 MB
  • 生成的数据集大小:1.74 MB
  • 总计使用的磁盘空间:1.96 MB

'train'的一个示例如下

数据字段

数据字段在所有划分中都相同。

2011.main.DE
  • topic_id: 字符串特征。
  • topic_name: 字符串特征。
  • test_id: 字符串特征。
  • document_id: 字符串特征。
  • document_str: 字符串特征。
  • question_id: 字符串特征。
  • question_str: 字符串特征。
  • answer_options: 包含以下内容的字典特征:
    • answer_id: 字符串特征。
    • answer_str: 字符串特征。
  • correct_answer_id: 字符串特征。
  • correct_answer_str: 字符串特征。
2011.main.EN
  • topic_id: 字符串特征。
  • topic_name: 字符串特征。
  • test_id: 字符串特征。
  • document_id: 字符串特征。
  • document_str: 字符串特征。
  • question_id: 字符串特征。
  • question_str: 字符串特征。
  • answer_options: 包含以下内容的字典特征:
    • answer_id: 字符串特征。
    • answer_str: 字符串特征。
  • correct_answer_id: 字符串特征。
  • correct_answer_str: 字符串特征。
2011.main.ES
  • topic_id: 字符串特征。
  • topic_name: 字符串特征。
  • test_id: 字符串特征。
  • document_id: 字符串特征。
  • document_str: 字符串特征。
  • question_id: 字符串特征。
  • question_str: 字符串特征。
  • answer_options: 包含以下内容的字典特征:
    • answer_id: 字符串特征。
    • answer_str: 字符串特征。
  • correct_answer_id: 字符串特征。
  • correct_answer_str: 字符串特征。
2011.main.IT
  • topic_id: 字符串特征。
  • topic_name: 字符串特征。
  • test_id: 字符串特征。
  • document_id: 字符串特征。
  • document_str: 字符串特征。
  • question_id: 字符串特征。
  • question_str: 字符串特征。
  • answer_options: 包含以下内容的字典特征:
    • answer_id: 字符串特征。
    • answer_str: 字符串特征。
  • correct_answer_id: 字符串特征。
  • correct_answer_str: 字符串特征。
2011.main.RO
  • topic_id: 字符串特征。
  • topic_name: 字符串特征。
  • test_id: 字符串特征。
  • document_id: 字符串特征。
  • document_str: 字符串特征。
  • question_id: 字符串特征。
  • question_str: 字符串特征。
  • answer_options: 包含以下内容的字典特征:
    • answer_id: 字符串特征。
    • answer_str: 字符串特征。
  • correct_answer_id: 字符串特征。
  • correct_answer_str: 字符串特征。

数据划分

name train
2011.main.DE 120
2011.main.EN 120
2011.main.ES 120
2011.main.IT 120
2011.main.RO 120

数据集创建

策划理由

More Information Needed

来源数据

初始数据收集和规范化

More Information Needed

源语言制作者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@InProceedings{10.1007/978-3-642-40802-1_29,
author="Pe{\~{n}}as, Anselmo
and Hovy, Eduard
and Forner, Pamela
and Rodrigo, {\'A}lvaro
and Sutcliffe, Richard
and Morante, Roser",
editor="Forner, Pamela
and M{\"u}ller, Henning
and Paredes, Roberto
and Rosso, Paolo
and Stein, Benno",
title="QA4MRE 2011-2013: Overview of Question Answering for Machine Reading Evaluation",
booktitle="Information Access Evaluation. Multilinguality, Multimodality, and Visualization",
year="2013",
publisher="Springer Berlin Heidelberg",
address="Berlin, Heidelberg",
pages="303--320",
isbn="978-3-642-40802-1"
}

贡献者

感谢 @patrickvonplaten @albertvillanova @mariamabarham @thomwolf 添加此数据集。