数据集:

xor_tydi_qa

任务:

问答

子任务:

open-domain-qa

计算机处理:

multilingual

大小:

10K<n<100K

批注创建人:

crowdsourced

预印本库:

arxiv:2010.11856

许可:

mit
英文

XOR QA 数据集卡

数据集摘要

XOR-TyDi QA 首次将信息寻求问题、开放检索QA和多语言QA汇集在一起,创建了一个多语言开放检索QA数据集,从而实现了跨语言答案检索。该数据集包含由七种语言的信息寻求原生说话者撰写的问题和从多语言文档收集中检索到的答案注释。

支持的任务和排行榜

有三个子任务:XOR-Retrieve(XOR-检索),XOR-EnglishSpan(XOR-英语跨度)和XOR-Full(XOR-完整)。

  • XOR-检索 : XOR-检索是一个跨语言检索任务,其中一个问题用目标语言(比如日语)书写,系统需要检索出回答该问题的英文段落。该数据集可用于训练跨语言检索模型。通常使用R@5kt,R@2kt来衡量成功度(通过计算最小答案是否包含在前5000个/2000个被选中的令牌中来计算召回率)。该任务有一个活跃的排行榜,可以在 leaderboard url 找到。

  • XOR-英语跨度 : XOR-英语跨度是一个跨语言检索任务,其中一个问题用目标语言(比如日语)书写,系统需要输出一个英语的简短回答。该数据集可用于训练跨语言检索模型。通常使用F1、EM来衡量成功度。该任务有一个活跃的排行榜,可以在 leaderboard url 找到。

  • XOR-完整 : XOR-完整是一个跨语言检索任务,其中一个问题用目标语言(比如日语)书写,系统需要输出一个目标语言的简短回答。该任务通常使用F1、EM、BLEU来衡量成功度。该任务有一个活跃的排行榜,可以在 leaderboard url 找到。

语言

数据集中的文本提供了7种语言的内容:阿拉伯语(ar),孟加拉语(bn),芬兰语(fi),日语(ja),韩语(ko),俄语(ru),泰卢固语(te)

数据集结构

数据实例

一个典型的数据点包含一个问题,它的答案,问题文本的语言和所属分割。

{
    "id": "-3979399588609321314", 
    "question": "Сколько детей было у Наполео́на I Бонапа́рта?", 
    "answers": ["сын"], 
    "lang": "ru", 
    "split": "train"
}

数据字段

  • id: 数据集中每个示例的标识符
  • question: 开放领域问题
  • answers: 对所提问题的相应答案
  • lang: BCP-47语言标签
  • split: 区分训练、验证和测试分割的标识符

数据拆分

数据被分为两个配置的训练、验证和测试集。

train validation test
XOR Retrieve 15250 2113 2501
XOR Full 61360 3179 8177

数据集创建

策划理由

这个任务框架很好地反映了现实世界的情况,QA系统使用多语言文档集合来回答多语言和文化背景的用户提出的问题。尽管普遍假设我们可以在目标语言中找到答案,但与英语相比,非英语语言的网络资源在很大程度上有限(信息稀缺),或者内容偏向于自己的文化(信息不对称)。为了解决这些问题,XOR-TYDI QA(Asai等,2020)提供了一个基准,用于开发一个能够在多种语言中找到答案的多语言QA系统。

数据来源

注释管道由四个步骤组成:1)通过对TYDI QA的问题进行注释,收集需要跨语言参考的真实问题;2)将目标语言的问题翻译为可能存在缺失信息的基准语言英语;3)在给定一组候选文档的情况下,在基准语言中选择答案片段;4)答案验证,并将基准语言翻译回原始语言。

初始数据收集和规范化

[需要更多信息]

谁是源语言制作人?

数据集是通过扩展TyDiQA数据集并将问题翻译成其他语言来创建的。通过将问题众包给Mechanical Turk工作者来获取答案

注释

注释过程

将TyDiQA中的英文问题翻译成其他语言。语言的选择基于维基百科数据的可用性和翻译者的可用性。

谁是注释者?

翻译是使用专业翻译服务(Gengo)[ https://gengo.com] 进行的,答案是由MechanicalTurk工作者进行注释的

个人和敏感信息

数据集是由维基百科内容创建的,QA任务需要保留命名实体,因此数据中保留了所有维基百科命名实体。关于屏蔽敏感信息的信息不多。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集创建者

与数据集创建相关的人员有 Akari Asai, Jungo Kasai, Jonathan H. Clark, Kenton Lee, Eunsol Choi, Hannaneh Hajishirzi

许可信息

XOR-TyDi QA 在 CC BY-SA 4.0 许可下发布

引用信息

@article{xorqa,
    title   = {XOR QA: Cross-lingual Open-Retrieval Question Answering},
    author  = {Akari Asai and Jungo Kasai and Jonathan H. Clark and Kenton Lee and Eunsol Choi and Hannaneh Hajishirzi}
    year    = {2020}
}

贡献

感谢 @sumanthd17 添加此数据集。