数据集:

multi_re_qa

任务:

问答

子任务:

extractive-qa open-domain-qa

语言:

计算机处理:

monolingual

大小:

100K<n<1M 10K<n<100K 1K<n<10K

语言创建人:

expert-generated found

批注创建人:

expert-generated found

源数据集:

extended|other-BioASQ extended|other-DuoRC extended|other-HotpotQA

预印本库:

arxiv:2005.02507

许可:

license:unknown

数据集介绍文件清单

英文

MultiReQA 数据集卡片

数据集概要

MultiReQA 包含来自八个公开可用的 QA 数据集（包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction 和 TextbookQA）的句子边界注释。其中，包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions 和 SQuAD 在内的五个数据集包含训练和测试数据，包括 BioASQ、RelationExtraction 和 TextbookQA 在内的三个数据集仅包含测试数据（官方文档中还提到了 DuoRC，但没有具体说明）

支持的任务和排行榜

问答（QA）
检索问答（ReQA）

语言

SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction、TextbookQA 和 DuoRC 的句子边界注释

数据集结构

数据实例

通用格式为： { "candidate_id": <candidate_id>, "response_start": <response_start>, "response_end": <response_end> } ...

SearchQA 的一个示例：{'candidate_id': 'SearchQA_000077f3912049dfb4511db271697bad/_0_1', 'response_end': 306, 'response_start': 243}

数据字段

{ "candidate_id": <STRING>, "response_start": <INT>, "response_end": <INT> } ...

candidate_id：候选句子的候选 ID。该 ID 由 MRQA 共享任务中的原始 qid 组成。
response_start：句子相对于其原始上下文的起始索引。
response_end：句子相对于其原始上下文的结束索引。

数据拆分

仅以下数据集提供训练和开发拆分：

SearchQA
TriviaQA
HotpotQA
SQuAD
NaturalQuestions

仅以下数据集提供测试拆分：

BioASQ
RelationExtraction
TextbookQA

下表列出了每个数据集的候选句子数量。

MultiReQA
train	test
SearchQA	629,160	454,836
TriviaQA	335,659	238,339
HotpotQA	104,973	52,191
SQuAD	87,133	10,642
NaturalQuestions	106,521	22,118
BioASQ	-	14,158
RelationExtraction	-	3,301
TextbookQA	-	3,701

数据集创建

策划理由

MultiReQA 是一个新的多领域 ReQA 评估套件，由来自 MRQA shared task 的现有公开 QA 任务转换为 MultiReQA 基准格式组成。

源数据

初始数据收集和规范化

初始数据收集是通过将 MRQA 共享任务中的现有 QA 数据集转换为 MultiReQA 基准格式来完成的。

谁是原语言制作者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者？

数据集的标注者/策划者为 mandyguo-xyguo 和 mwurts4google ，他们是官方 MultiReQA GitHub 存储库的贡献者

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

数据集的标注者/策划者为 mandyguo-xyguo 和 mwurts4google ，他们是官方 MultiReQA GitHub 存储库的贡献者

许可信息

[需要更多信息]

引用信息

@misc{m2020multireqa,
    title={MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering Models},
    author={Mandy Guo and Yinfei Yang and Daniel Cer and Qinlan Shen and Noah Constant},
    year={2020},
    eprint={2005.02507},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @Karthik-Bhaskar 添加此数据集。

作者:

佚名

数据集大小:

36.81 KB