数据集:

juletxara/tydiqa_xtreme

许可:

apache-2.0

预印本库:

arxiv:2003.11080

源数据集:

extended|wikipedia

批注创建人:

crowdsourced

语言创建人:

crowdsourced

计算机处理:

multilingual

子任务:

extractive-qa

任务:

问答
英文

"tydiqa"的数据集卡片

数据集概述

TyDi QA是一个包含了11种语言的问题回答数据集,共有204k个问题-答案对。 TyDi QA所涵盖的语言在类型上是多样的,每种语言都表达了一系列不同的语言特征,使得我们期望在这个数据集上表现良好的模型可以在世界上的许多语言中进行泛化。它包含了在仅有英语的语料库中无法找到的语言现象。为了提供一个真实的信息获取任务并避免启示效应,问题由想要得到答案但尚不知答案的人编写(不同于SQuAD及其后继者),并且数据是直接收集的,而没有使用翻译(不同于MLQA和XQuAD)。

我们还为XTREME(Hu等,2020年)中的每种非英语语言提供“translate-train”和“translate-test”拆分。 这些拆分是从英语自动翻译到每种目标语言的结果,这些翻译用于XTREME论文[ https://arxiv.org/abs/2003.11080] ]. 这里的“translate-train”拆分有意忽略了非英语TyDiQA-GoldP训练数据,以模拟转移学习的场景,即原始语言数据不可用的情况下,系统建设者必须依赖于标记的英语数据加上现有的机器翻译系统。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

主要任务
  • 下载的数据集文件大小:1863.37 MB
  • 生成的数据集大小:5757.59 MB
  • 使用的总磁盘量:7620.96 MB

'validation'的示例如下所示。

This example was too long and was cropped:

{
    "annotations": {
        "minimal_answers_end_byte": [-1, -1, -1],
        "minimal_answers_start_byte": [-1, -1, -1],
        "passage_answer_candidate_index": [-1, -1, -1],
        "yes_no_answer": ["NONE", "NONE", "NONE"]
    },
    "document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร  (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...",
    "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร",
    "document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...",
    "language": "thai",
    "passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...",
    "question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..."
}
次要任务
  • 下载的数据集文件大小:1863.37 MB
  • 生成的数据集大小:55.34 MB
  • 使用的总磁盘量:1918.71 MB

'validation'的示例如下所示。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [394],
        "text": ["بطولتين"]
    },
    "context": "\"أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...",
    "id": "arabic-2387335860751143628-1",
    "question": "\"كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟\"...",
    "title": "قائمة نهائيات كأس العالم"
}

数据字段

所有拆分的数据字段都是相同的。

主要任务
  • passage_answer_candidates:包含以下内容的字典特征:
    • plaintext_start_byte:一个int32特征。
    • plaintext_end_byte:一个int32特征。
  • question_text:一个字符串特征。
  • document_title:一个字符串特征。
  • language:一个字符串特征。
  • annotations:包含以下内容的字典特征:
    • passage_answer_candidate_index:一个int32特征。
    • minimal_answers_start_byte:一个int32特征。
    • minimal_answers_end_byte:一个int32特征。
    • yes_no_answer:一个字符串特征。
  • document_plaintext:一个字符串特征。
  • document_url:一个字符串特征。
次要任务
  • id:一个字符串特征。
  • title:一个字符串特征。
  • context:一个字符串特征。
  • question:一个字符串特征。
  • answers:包含以下内容的字典特征:
    • text:一个字符串特征。
    • answer_start:一个int32特征。

数据拆分

name train validation
primary_task 166916 18670
secondary_task 49881 5077

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言制作人是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{tydiqa,
title   = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author  = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year    = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}




@inproceedings{ruder-etal-2021-xtreme,
    title = "{XTREME}-{R}: Towards More Challenging and Nuanced Multilingual Evaluation",
    author = "Ruder, Sebastian  and
      Constant, Noah  and
      Botha, Jan  and
      Siddhant, Aditya  and
      Firat, Orhan  and
      Fu, Jinlan  and
      Liu, Pengfei  and
      Hu, Junjie  and
      Garrette, Dan  and
      Neubig, Graham  and
      Johnson, Melvin",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.802",
    doi = "10.18653/v1/2021.emnlp-main.802",
    pages = "10215--10245",

}

}