数据集:

deepset/germanquad

英文

德语问答数据集的数据卡

数据集概述

为了提高非英语问答的水平,我们发布了一个高质量的德语问答数据集,包含13,722个问题,包括一个三路注释测试集。德语问答的创建受到了现有数据集的启发,以及我们在几个行业项目中的标注经验。我们结合了SQuAD的优势,如高的领域外表现,以及类似NaturalQuestions数据集中包含所有相关信息的自己提问的问题。我们的训练和测试数据集与其他流行数据集不重叠,并包含无法用单个实体或几个单词回答的复杂问题。

支持的任务和排行榜

  • 提取式问答,封闭域问答,开放域问答,文本检索:该数据集的目的是用于开放域问答,但也可以用于信息检索任务。

语言

数据集中的句子为德语(de)。

数据集结构

数据实例

下面提供了训练集的样本:

{
    "paragraphs": [
        {
            "qas": [
                {
                    "question": "Von welchem Gesetzt stammt das Amerikanische ab? ",
                    "id": 51870,
                    "answers": [
                        {
                            "answer_id": 53778,
                            "document_id": 43958,
                            "question_id": 51870,
                            "text": "britischen Common Laws",
                            "answer_start": 146,
                            "answer_category": "SHORT"
                        }
                    ],
                    "is_impossible": false
                }
            ],
            "context": "Recht_der_Vereinigten_Staaten\
\
=== Amerikanisches Common Law ===\
Obwohl die Vereinigten Staaten wie auch viele Staaten des Commonwealth Erben des britischen Common Laws sind, setzt sich das amerikanische Recht bedeutend davon ab. Dies rührt größtenteils von dem langen Zeitraum her, in dem sich das amerikanische Recht unabhängig vom Britischen entwickelt hat. Entsprechend schauen die Gerichte in den Vereinigten Staaten bei der Analyse von eventuell zutreffenden britischen Rechtsprinzipien im Common Law gewöhnlich nur bis ins frühe 19. Jahrhundert.\
Während es in den Commonwealth-Staaten üblich ist, dass Gerichte sich Entscheidungen und Prinzipien aus anderen Commonwealth-Staaten importieren, ist das in der amerikanischen Rechtsprechung selten. Ausnahmen bestehen hier nur, wenn sich überhaupt keine relevanten amerikanischen Fälle finden lassen, die Fakten nahezu identisch sind und die Begründung außerordentlich überzeugend ist. Frühe amerikanische Entscheidungen zitierten oft britische Fälle, solche Zitate verschwanden aber während des 19. Jahrhunderts, als die Gerichte eindeutig amerikanische Lösungen zu lokalen Konflikten fanden. In der aktuellen Rechtsprechung beziehen sich fast alle Zitate auf amerikanische Fälle.\
Einige Anhänger des Originalismus und der strikten Gesetzestextauslegung (''strict constructionism''), wie zum Beispiel der verstorbene Bundesrichter am Obersten Gerichtshof, Antonin Scalia, vertreten die Meinung, dass amerikanische Gerichte ''nie'' ausländische Fälle überprüfen sollten, die nach dem Unabhängigkeitskrieg entschieden wurden, unabhängig davon, ob die Argumentation überzeugend ist oder nicht. Die einzige Ausnahme wird hier in Fällen gesehen, die durch die Vereinigten Staaten ratifizierte völkerrechtliche Verträge betreffen. Andere Richter, wie zum Beispiel Anthony Kennedy und Stephen Breyer vertreten eine andere Ansicht und benutzen ausländische Rechtsprechung, sofern ihre Argumentation für sie überzeugend, nützlich oder hilfreich ist.",
            "document_id": 43958
        }
    ]
},

数据字段

  • id:字符串特征。
  • 上下文:字符串特征。
  • 问题:字符串特征。
  • 答案:包含的字典特征:
    • 文本:字符串特征。
    • 答案起始位置:int32特征。

数据划分

数据集分为单向注释的训练集和三向注释的德语维基百科段落测试集。每个段落来自不同的文章。

passages questions answers
train 2540 11518 11518
test 474 2204 6536

其他信息

数据集创建者

该数据集最初由Timo Möller,Julian Risch,Malte Pietsch,Julian Gutsch,Tom Hersperger,Luise Köhler,Iuliia Mozhina和Justus Peter在deepset.ai上完成的工作期间创建。

引用信息

@misc{möller2021germanquad,
      title={GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval}, 
      author={Timo Möller and Julian Risch and Malte Pietsch},
      year={2021},
      eprint={2104.12741},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}