数据集:

khalidalt/tydiqa-goldp

任务:

问答

子任务:

extractive-qa

计算机处理:

multilingual

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

extended|wikipedia

许可:

apache-2.0
英文

"tydiqa" 数据集卡片

数据集摘要

TyDi QA 是一个包含204K个问题-答案对的问答数据集,涵盖了11种语言的各种类型。TyDi QA的语言多样性很高,涵盖了各种语言表达的语言特性集合,我们期望在这个数据集上表现良好的模型能够对世界上众多语言进行泛化。该数据集中包含了英语专用语料库中找不到的语言现象。为了提供一个真实的信息获取任务并避免启动效应,问题是由想要了解答案但还不知道答案的人编写的(与SQuAD及其后代不同),数据是直接在每种语言中收集而来的(与MLQA和XQuAD不同,它们使用了翻译)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

primary_task
  • 下载的数据集文件大小:1863.37 MB
  • 生成的数据集大小:5757.59 MB
  • 总磁盘使用量:7620.96 MB

“验证”示例如下。

This example was too long and was cropped:

{
    "annotations": {
        "minimal_answers_end_byte": [-1, -1, -1],
        "minimal_answers_start_byte": [-1, -1, -1],
        "passage_answer_candidate_index": [-1, -1, -1],
        "yes_no_answer": ["NONE", "NONE", "NONE"]
    },
    "document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร  (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...",
    "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร",
    "document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...",
    "language": "thai",
    "passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...",
    "question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..."
}
secondary_task
  • 下载的数据集文件大小:1863.37 MB
  • 生成的数据集大小:55.34 MB
  • 总磁盘使用量:1918.71 MB

“验证”示例如下。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [394],
        "text": ["بطولتين"]
    },
    "context": "\"أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...",
    "id": "arabic-2387335860751143628-1",
    "question": "\"كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟\"...",
    "title": "قائمة نهائيات كأس العالم"
}

数据字段

所有拆分之间的数据字段相同。

primary_task
  • passage_answer_candidates:包含的字典特征:
    • plaintext_start_byte:整数特征。
    • plaintext_end_byte:整数特征。
  • question_text:字符串特征。
  • document_title:字符串特征。
  • language:字符串特征。
  • annotations:包含的字典特征:
    • passage_answer_candidate_index:整数特征。
    • minimal_answers_start_byte:整数特征。
    • minimal_answers_end_byte:整数特征。
    • yes_no_answer:字符串特征。
  • document_plaintext:字符串特征。
  • document_url:字符串特征。
secondary_task
  • id:字符串特征。
  • title:字符串特征。
  • context:字符串特征。
  • question:字符串特征。
  • answers:包含的字典特征:
    • text:字符串特征。
    • answer_start:整数特征。

数据拆分

name train validation
primary_task 166916 18670
secondary_task 49881 5077

数据集创建

选择理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源数据语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

有哪些注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策展者

More Information Needed

许可信息

More Information Needed

引用信息

@article{tydiqa,
title   = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author  = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year    = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}




@inproceedings{ruder-etal-2021-xtreme,
    title = "{XTREME}-{R}: Towards More Challenging and Nuanced Multilingual Evaluation",
    author = "Ruder, Sebastian  and
      Constant, Noah  and
      Botha, Jan  and
      Siddhant, Aditya  and
      Firat, Orhan  and
      Fu, Jinlan  and
      Liu, Pengfei  and
      Hu, Junjie  and
      Garrette, Dan  and
      Neubig, Graham  and
      Johnson, Melvin",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.802",
    doi = "10.18653/v1/2021.emnlp-main.802",
    pages = "10215--10245",

}

}