数据集:

khalidalt/tydiqa-primary

任务:

问答

子任务:

extractive-qa

计算机处理:

multilingual

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

extended|wikipedia

许可:

apache-2.0
英文

"tydiqa" 的数据集卡片

数据集概要

TyDi QA 是一个包含 11 种语言的问题回答数据集,包含 20.4 万个问题-回答对。TyDi QA 中的语言在其语言类型上是多样化的 - 每种语言表达的语言特征集 - 因此我们期望在此数据集上表现良好的模型能够推广到世界上很多语言。它包含了在仅英语语料库中找不到的语言现象。为了提供一个真实的信息搜索任务并避免启动效应,问题是由想要知道答案但尚不知道答案的人编写的(与 SQuAD 及其子数据集不同),并且数据是直接在每种语言中收集的,而不使用翻译(与 MLQA 和 XQuAD 不同)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

主要任务
  • 下载的数据集文件大小:1863.37 MB
  • 生成的数据集大小:5757.59 MB
  • 总共使用的磁盘空间:7620.96 MB

'验证' 的一个示例如下所示。

This example was too long and was cropped:

{
    "annotations": {
        "minimal_answers_end_byte": [-1, -1, -1],
        "minimal_answers_start_byte": [-1, -1, -1],
        "passage_answer_candidate_index": [-1, -1, -1],
        "yes_no_answer": ["NONE", "NONE", "NONE"]
    },
    "document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร  (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...",
    "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร",
    "document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...",
    "language": "thai",
    "passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...",
    "question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..."
}

数据字段

所有拆分的数据字段相同。

主要任务
  • passage_answer_candidates:包含以下内容的字典特征:
    • plaintext_start_byte:int32 特征。
    • plaintext_end_byte:int32 特征。
  • question_text:字符串特征。
  • document_title:字符串特征。
  • language:字符串特征。
  • annotations:包含以下内容的字典特征:
    • passage_answer_candidate_index:int32 特征。
    • minimal_answers_start_byte:int32 特征。
    • minimal_answers_end_byte:int32 特征。
    • yes_no_answer:字符串特征。
  • document_plaintext:字符串特征。
  • document_url:字符串特征。

数据拆分

name train validation
primary_task 166916 18670

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生成者?

More Information Needed

注释

注释流程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据时的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{tydiqa,
title   = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author  = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year    = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}




@inproceedings{ruder-etal-2021-xtreme,
    title = "{XTREME}-{R}: Towards More Challenging and Nuanced Multilingual Evaluation",
    author = "Ruder, Sebastian  and
      Constant, Noah  and
      Botha, Jan  and
      Siddhant, Aditya  and
      Firat, Orhan  and
      Fu, Jinlan  and
      Liu, Pengfei  and
      Hu, Junjie  and
      Garrette, Dan  and
      Neubig, Graham  and
      Johnson, Melvin",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.802",
    doi = "10.18653/v1/2021.emnlp-main.802",
    pages = "10215--10245",

}

}