数据集:

castorini/odqa-wiki-corpora

子任务:

open-domain-qa

语言:

en

计算机处理:

monolingual

批注创建人:

no-annotation
英文

Open-Domain Question Answering Wikipedia Corpora 数据集卡片

数据集描述

数据集摘要

Wikipedia语料库的不同变体可用作基于检索器-阅读器流水线的问答系统的知识源。有关这些语料库变体及其相应实验的详细描述可以在题为:

"Pre-Processing Matters! Improved Wikipedia Corpora for Open-Domain Question Answering"的论文中找到。

数据集结构

数据字段

数据集由从维基百科文章中分割出的段落组成。对于每个段落,提供以下字段:

  • docid:The passage id in the format of (X#Y) where passages from the same article share the same X, but Y denotes the segment id within the article
  • title:The title of the article from where the passage comes
  • text:The text content of the passage

数据划分

总共有6个语料库变体

  • wiki-text-100w-karpukhin:The original DPR Wikipedia corpus with non-overlapping passages, each 100 words long, from Karpukhin et al.,

    Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. Dense Passage Retrieval for Open-Domain Question Answering . Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6769-6781, 2020.

  • wiki-text-100w-tamber:我们复制了上述语料库。
  • wiki-text-6-3-tamber:与上述语料库类似,即不包含表格、信息框和列表。分段方式不同,段落大小为6个句子,步幅为3个句子。请注意,这意味着段落会有重叠。
  • wiki-text-8-4-tamber:与wiki-text-6-3类似,但段落大小为8个句子,步幅为4个句子。
  • wiki-all-6-3-tamber:包含表格、信息框和列表的语料库,段落大小为6个句子,步幅为3个句子。
  • wiki-all-8-4-tamber:与wiki-all-6-3类似,但段落大小为8个句子,步幅为4个句子。

数据集创建

来源数据

初始数据收集和标准化

首先我们下载完整的2018年12月20日的维基百科XML转储:enwiki-20181220-pages-articles.xml 从互联网档案馆: https://archive.org/details/enwiki-20181220 。然后通过WikiExtractor进行预处理: https://github.com/attardi/wikiextractor (确保修改代码以包含所需的列表,并将任何表格替换为字符串"TABLETOREPLACE")以及DrQA: https://github.com/facebookresearch/DrQA/tree/main/scripts/retriever (再次确保修改代码以保留列表)。

然后我们应用可在 Pyserini 中获得的 pre-processing script 以生成不同的语料库变体。