数据集:
mkqa
任务:
问答子任务:
open-domain-qa大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced预印本库:
arxiv:2007.15207许可:
cc-by-3.0MKQA包含从 Google Natural Questions dataset 中抽样得到的10,000个查询。
对于每个查询,我们收集独立于段落的新回答。然后将这些查询和回答翻译成25种非英语语言。
问答
Language code | Language name |
---|---|
ar | Arabic |
da | Danish |
de | German |
en | English |
es | Spanish |
fi | Finnish |
fr | French |
he | Hebrew |
hu | Hungarian |
it | Italian |
ja | Japanese |
ko | Korean |
km | Khmer |
ms | Malay |
nl | Dutch |
no | Norwegian |
pl | Polish |
pt | Portuguese |
ru | Russian |
sv | Swedish |
th | Thai |
tr | Turkish |
vi | Vietnamese |
zh_cn | Chinese (Simplified) |
zh_hk | Chinese (Hong kong) |
zh_tw | Chinese (Traditional) |
数据集中的一个示例如下所示:
{ 'example_id': 563260143484355911, 'queries': { 'en': "who sings i hear you knocking but you can't come in", 'ru': "кто поет i hear you knocking but you can't come in", 'ja': '「 I hear you knocking」は誰が歌っていますか', 'zh_cn': "《i hear you knocking but you can't come in》是谁演唱的", ... }, 'query': "who sings i hear you knocking but you can't come in", 'answers': {'en': [{'type': 'entity', 'entity': 'Q545186', 'text': 'Dave Edmunds', 'aliases': []}], 'ru': [{'type': 'entity', 'entity': 'Q545186', 'text': 'Эдмундс, Дэйв', 'aliases': ['Эдмундс', 'Дэйв Эдмундс', 'Эдмундс Дэйв', 'Dave Edmunds']}], 'ja': [{'type': 'entity', 'entity': 'Q545186', 'text': 'デイヴ・エドモンズ', 'aliases': ['デーブ・エドモンズ', 'デイブ・エドモンズ']}], 'zh_cn': [{'type': 'entity', 'text': '戴维·埃德蒙兹 ', 'entity': 'Q545186'}], ... }, }
数据集中的每个示例都包含唯一的自然问题 example_id ,然后是原始的英语查询 query ,以及26种语言的查询和回答。每个回答都带有一个回答类型标签。具体情况如下所示:
Answer Type | Occurrence |
---|---|
entity | 4221 |
long_answer | 1815 |
unanswerable | 1427 |
date | 1174 |
number | 485 |
number_with_unit | 394 |
short_phrase | 346 |
binary | 138 |
对于每种语言,可以有多个可接受的文本答案,以捕捉可能的有效答案的多样性。
从 here 中获取字段的详细解释
当实体字段不可用时,将其设置为空字符串''。当别名字段不可用时,将其设置为空列表[]。
[需要更多信息]
Google Natural Questions dataset
初始数据收集和归一化[需要更多信息]
谁是源语言的制作人?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@misc{mkqa, title = {MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering}, author = {Shayne Longpre and Yi Lu and Joachim Daiber}, year = {2020}, URL = {https://arxiv.org/pdf/2007.15207.pdf} }
感谢 @cceyda 添加该数据集。