数据集:
xor_tydi_qa
任务:
问答子任务:
open-domain-qa计算机处理:
multilingual大小:
10K<n<100K批注创建人:
crowdsourced预印本库:
arxiv:2010.11856许可:
mitXOR-TyDi QA 首次将信息寻求问题、开放检索QA和多语言QA汇集在一起,创建了一个多语言开放检索QA数据集,从而实现了跨语言答案检索。该数据集包含由七种语言的信息寻求原生说话者撰写的问题和从多语言文档收集中检索到的答案注释。
有三个子任务:XOR-Retrieve(XOR-检索),XOR-EnglishSpan(XOR-英语跨度)和XOR-Full(XOR-完整)。
XOR-检索 : XOR-检索是一个跨语言检索任务,其中一个问题用目标语言(比如日语)书写,系统需要检索出回答该问题的英文段落。该数据集可用于训练跨语言检索模型。通常使用R@5kt,R@2kt来衡量成功度(通过计算最小答案是否包含在前5000个/2000个被选中的令牌中来计算召回率)。该任务有一个活跃的排行榜,可以在 leaderboard url 找到。
XOR-英语跨度 : XOR-英语跨度是一个跨语言检索任务,其中一个问题用目标语言(比如日语)书写,系统需要输出一个英语的简短回答。该数据集可用于训练跨语言检索模型。通常使用F1、EM来衡量成功度。该任务有一个活跃的排行榜,可以在 leaderboard url 找到。
XOR-完整 : XOR-完整是一个跨语言检索任务,其中一个问题用目标语言(比如日语)书写,系统需要输出一个目标语言的简短回答。该任务通常使用F1、EM、BLEU来衡量成功度。该任务有一个活跃的排行榜,可以在 leaderboard url 找到。
数据集中的文本提供了7种语言的内容:阿拉伯语(ar),孟加拉语(bn),芬兰语(fi),日语(ja),韩语(ko),俄语(ru),泰卢固语(te)
一个典型的数据点包含一个问题,它的答案,问题文本的语言和所属分割。
{ "id": "-3979399588609321314", "question": "Сколько детей было у Наполео́на I Бонапа́рта?", "answers": ["сын"], "lang": "ru", "split": "train" }
数据被分为两个配置的训练、验证和测试集。
train | validation | test | |
---|---|---|---|
XOR Retrieve | 15250 | 2113 | 2501 |
XOR Full | 61360 | 3179 | 8177 |
这个任务框架很好地反映了现实世界的情况,QA系统使用多语言文档集合来回答多语言和文化背景的用户提出的问题。尽管普遍假设我们可以在目标语言中找到答案,但与英语相比,非英语语言的网络资源在很大程度上有限(信息稀缺),或者内容偏向于自己的文化(信息不对称)。为了解决这些问题,XOR-TYDI QA(Asai等,2020)提供了一个基准,用于开发一个能够在多种语言中找到答案的多语言QA系统。
注释管道由四个步骤组成:1)通过对TYDI QA的问题进行注释,收集需要跨语言参考的真实问题;2)将目标语言的问题翻译为可能存在缺失信息的基准语言英语;3)在给定一组候选文档的情况下,在基准语言中选择答案片段;4)答案验证,并将基准语言翻译回原始语言。
初始数据收集和规范化[需要更多信息]
谁是源语言制作人?数据集是通过扩展TyDiQA数据集并将问题翻译成其他语言来创建的。通过将问题众包给Mechanical Turk工作者来获取答案
将TyDiQA中的英文问题翻译成其他语言。语言的选择基于维基百科数据的可用性和翻译者的可用性。
谁是注释者?翻译是使用专业翻译服务(Gengo)[ https://gengo.com] 进行的,答案是由MechanicalTurk工作者进行注释的
数据集是由维基百科内容创建的,QA任务需要保留命名实体,因此数据中保留了所有维基百科命名实体。关于屏蔽敏感信息的信息不多。
[需要更多信息]
[需要更多信息]
[需要更多信息]
与数据集创建相关的人员有 Akari Asai, Jungo Kasai, Jonathan H. Clark, Kenton Lee, Eunsol Choi, Hannaneh Hajishirzi
XOR-TyDi QA 在 CC BY-SA 4.0 许可下发布
@article{xorqa, title = {XOR QA: Cross-lingual Open-Retrieval Question Answering}, author = {Akari Asai and Jungo Kasai and Jonathan H. Clark and Kenton Lee and Eunsol Choi and Hannaneh Hajishirzi} year = {2020} }
感谢 @sumanthd17 添加此数据集。