数据集:

mkqa

任务:

问答

子任务:

open-domain-qa

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

预印本库:

arxiv:2007.15207

许可:

cc-by-3.0
英文

MKQA: Multilingual Knowledge Questions & Answers 数据集卡片

数据集概述

MKQA包含从 Google Natural Questions dataset 中抽样得到的10,000个查询。

对于每个查询,我们收集独立于段落的新回答。然后将这些查询和回答翻译成25种非英语语言。

支持的任务和排行榜

问答

语言

Language code Language name
ar Arabic
da Danish
de German
en English
es Spanish
fi Finnish
fr French
he Hebrew
hu Hungarian
it Italian
ja Japanese
ko Korean
km Khmer
ms Malay
nl Dutch
no Norwegian
pl Polish
pt Portuguese
ru Russian
sv Swedish
th Thai
tr Turkish
vi Vietnamese
zh_cn Chinese (Simplified)
zh_hk Chinese (Hong kong)
zh_tw Chinese (Traditional)

数据集结构

数据实例

数据集中的一个示例如下所示:

{
 'example_id': 563260143484355911,
 'queries': {
  'en': "who sings i hear you knocking but you can't come in",
  'ru': "кто поет i hear you knocking but you can't come in",
  'ja': '「 I hear you knocking」は誰が歌っていますか',
  'zh_cn': "《i hear you knocking but you can't come in》是谁演唱的",
  ...
 },
 'query': "who sings i hear you knocking but you can't come in",
 'answers': {'en': [{'type': 'entity',
    'entity': 'Q545186',
    'text': 'Dave Edmunds',
    'aliases': []}],
  'ru': [{'type': 'entity',
    'entity': 'Q545186',
    'text': 'Эдмундс, Дэйв',
    'aliases': ['Эдмундс', 'Дэйв Эдмундс', 'Эдмундс Дэйв', 'Dave Edmunds']}],
  'ja': [{'type': 'entity',
    'entity': 'Q545186',
    'text': 'デイヴ・エドモンズ',
    'aliases': ['デーブ・エドモンズ', 'デイブ・エドモンズ']}],
  'zh_cn': [{'type': 'entity', 'text': '戴维·埃德蒙兹 ', 'entity': 'Q545186'}],
  ...
  },
}

数据字段

数据集中的每个示例都包含唯一的自然问题 example_id ,然后是原始的英语查询 query ,以及26种语言的查询和回答。每个回答都带有一个回答类型标签。具体情况如下所示:

Answer Type Occurrence
entity 4221
long_answer 1815
unanswerable 1427
date 1174
number 485
number_with_unit 394
short_phrase 346
binary 138

对于每种语言,可以有多个可接受的文本答案,以捕捉可能的有效答案的多样性。

here 中获取字段的详细解释

当实体字段不可用时,将其设置为空字符串''。当别名字段不可用时,将其设置为空列表[]。

数据拆分

  • 训练:10000

数据集创建

策划理由

[需要更多信息]

源数据

Google Natural Questions dataset

初始数据收集和归一化

[需要更多信息]

谁是源语言的制作人?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集创建者

[需要更多信息]

许可信息

CC BY-SA 3.0

引用信息

@misc{mkqa,
    title = {MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering},
    author = {Shayne Longpre and Yi Lu and Joachim Daiber},
    year = {2020},
    URL = {https://arxiv.org/pdf/2007.15207.pdf}
}

贡献

感谢 @cceyda 添加该数据集。