数据集:
castorini/odqa-wiki-corpora
Wikipedia语料库的不同变体可用作基于检索器-阅读器流水线的问答系统的知识源。有关这些语料库变体及其相应实验的详细描述可以在题为:
"Pre-Processing Matters! Improved Wikipedia Corpora for Open-Domain Question Answering"的论文中找到。
数据集由从维基百科文章中分割出的段落组成。对于每个段落,提供以下字段:
总共有6个语料库变体
Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. Dense Passage Retrieval for Open-Domain Question Answering . Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6769-6781, 2020.
初始数据收集和标准化
首先我们下载完整的2018年12月20日的维基百科XML转储:enwiki-20181220-pages-articles.xml 从互联网档案馆: https://archive.org/details/enwiki-20181220 。然后通过WikiExtractor进行预处理: https://github.com/attardi/wikiextractor (确保修改代码以包含所需的列表,并将任何表格替换为字符串"TABLETOREPLACE")以及DrQA: https://github.com/facebookresearch/DrQA/tree/main/scripts/retriever (再次确保修改代码以保留列表)。
然后我们应用可在 Pyserini 中获得的 pre-processing script 以生成不同的语料库变体。