数据集:
juletxara/tydiqa_xtreme
许可:
apache-2.0预印本库:
arxiv:2003.11080源数据集:
extended|wikipedia批注创建人:
crowdsourced语言创建人:
crowdsourced计算机处理:
multilingual子任务:
extractive-qa任务:
问答TyDi QA是一个包含了11种语言的问题回答数据集,共有204k个问题-答案对。 TyDi QA所涵盖的语言在类型上是多样的,每种语言都表达了一系列不同的语言特征,使得我们期望在这个数据集上表现良好的模型可以在世界上的许多语言中进行泛化。它包含了在仅有英语的语料库中无法找到的语言现象。为了提供一个真实的信息获取任务并避免启示效应,问题由想要得到答案但尚不知答案的人编写(不同于SQuAD及其后继者),并且数据是直接收集的,而没有使用翻译(不同于MLQA和XQuAD)。
我们还为XTREME(Hu等,2020年)中的每种非英语语言提供“translate-train”和“translate-test”拆分。 这些拆分是从英语自动翻译到每种目标语言的结果,这些翻译用于XTREME论文[ https://arxiv.org/abs/2003.11080] ]. 这里的“translate-train”拆分有意忽略了非英语TyDiQA-GoldP训练数据,以模拟转移学习的场景,即原始语言数据不可用的情况下,系统建设者必须依赖于标记的英语数据加上现有的机器翻译系统。
'validation'的示例如下所示。
This example was too long and was cropped: { "annotations": { "minimal_answers_end_byte": [-1, -1, -1], "minimal_answers_start_byte": [-1, -1, -1], "passage_answer_candidate_index": [-1, -1, -1], "yes_no_answer": ["NONE", "NONE", "NONE"] }, "document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...", "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร", "document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...", "language": "thai", "passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...", "question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..." }次要任务
'validation'的示例如下所示。
This example was too long and was cropped: { "answers": { "answer_start": [394], "text": ["بطولتين"] }, "context": "\"أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...", "id": "arabic-2387335860751143628-1", "question": "\"كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟\"...", "title": "قائمة نهائيات كأس العالم" }
所有拆分的数据字段都是相同的。
主要任务name | train | validation |
---|---|---|
primary_task | 166916 | 18670 |
secondary_task | 49881 | 5077 |
@article{tydiqa, title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages}, author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki} year = {2020}, journal = {Transactions of the Association for Computational Linguistics} }
@inproceedings{ruder-etal-2021-xtreme, title = "{XTREME}-{R}: Towards More Challenging and Nuanced Multilingual Evaluation", author = "Ruder, Sebastian and Constant, Noah and Botha, Jan and Siddhant, Aditya and Firat, Orhan and Fu, Jinlan and Liu, Pengfei and Hu, Junjie and Garrette, Dan and Neubig, Graham and Johnson, Melvin", booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021", address = "Online and Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.emnlp-main.802", doi = "10.18653/v1/2021.emnlp-main.802", pages = "10215--10245", } }