英文

MultiReQA 数据集卡片

数据集概要

MultiReQA 包含来自八个公开可用的 QA 数据集(包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction 和 TextbookQA)的句子边界注释。其中,包括 SearchQA、TriviaQA、HotpotQA、NaturalQuestions 和 SQuAD 在内的五个数据集包含训练和测试数据,包括 BioASQ、RelationExtraction 和 TextbookQA 在内的三个数据集仅包含测试数据(官方文档中还提到了 DuoRC,但没有具体说明)

支持的任务和排行榜

  • 问答(QA)
  • 检索问答(ReQA)

语言

SearchQA、TriviaQA、HotpotQA、NaturalQuestions、SQuAD、BioASQ、RelationExtraction、TextbookQA 和 DuoRC 的句子边界注释

数据集结构

数据实例

通用格式为: { "candidate_id": <candidate_id>, "response_start": <response_start>, "response_end": <response_end> } ...

SearchQA 的一个示例:{'candidate_id': 'SearchQA_000077f3912049dfb4511db271697bad/_0_1', 'response_end': 306, 'response_start': 243}

数据字段

{ "candidate_id": <STRING>, "response_start": <INT>, "response_end": <INT> } ...

  • candidate_id:候选句子的候选 ID。该 ID 由 MRQA 共享任务中的原始 qid 组成。
  • response_start:句子相对于其原始上下文的起始索引。
  • response_end:句子相对于其原始上下文的结束索引。

数据拆分

仅以下数据集提供训练和开发拆分:

  • SearchQA
  • TriviaQA
  • HotpotQA
  • SQuAD
  • NaturalQuestions

仅以下数据集提供测试拆分:

  • BioASQ
  • RelationExtraction
  • TextbookQA

下表列出了每个数据集的候选句子数量。

MultiReQA
train test
SearchQA 629,160 454,836
TriviaQA 335,659 238,339
HotpotQA 104,973 52,191
SQuAD 87,133 10,642
NaturalQuestions 106,521 22,118
BioASQ - 14,158
RelationExtraction - 3,301
TextbookQA - 3,701

数据集创建

策划理由

MultiReQA 是一个新的多领域 ReQA 评估套件,由来自 MRQA shared task 的现有公开 QA 任务转换为 MultiReQA 基准格式组成。

源数据

初始数据收集和规范化

初始数据收集是通过将 MRQA 共享任务中的现有 QA 数据集转换为 MultiReQA 基准格式来完成的。

谁是原语言制作者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

数据集的标注者/策划者为 mandyguo-xyguo mwurts4google ,他们是官方 MultiReQA GitHub 存储库的贡献者

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

数据集的标注者/策划者为 mandyguo-xyguo mwurts4google ,他们是官方 MultiReQA GitHub 存储库的贡献者

许可信息

[需要更多信息]

引用信息

@misc{m2020multireqa,
    title={MultiReQA: A Cross-Domain Evaluation for Retrieval Question Answering Models},
    author={Mandy Guo and Yinfei Yang and Daniel Cer and Qinlan Shen and Noah Constant},
    year={2020},
    eprint={2005.02507},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @Karthik-Bhaskar 添加此数据集。