数据集:
squad_it
任务:
问答语言:
it计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
machine-generated源数据集:
extended|squad许可:
license:unknownSQuAD-it 是由 SQuAD 数据集衍生而来,通过半自动方式将 SQuAD 数据集翻译成意大利语。它是一个大规模的数据集,用于意大利语上的事实型问题开放式问答任务。该数据集包含从原始英文数据集中产生的超过60,000个问题/答案对。数据集被分为训练集和测试集,以支持 QA 系统的基准测试的可重复性。
'train' 的一个示例如下所示。
This example was too long and was cropped: { "answers": "{\"answer_start\": [243, 243, 243, 243, 243], \"text\": [\"evitare di essere presi di mira dal boicottaggio\", \"evitare di essere pres...", "context": "\"La crisi ha avuto un forte impatto sulle relazioni internazionali e ha creato una frattura all' interno della NATO. Alcune nazi...", "id": "5725b5a689a1e219009abd28", "question": "Perchè le nazioni europee e il Giappone si sono separati dagli Stati Uniti durante la crisi?" }
所有拆分的数据字段相同。
defaultname | train | test |
---|---|---|
default | 54159 | 7609 |
@InProceedings{10.1007/978-3-030-03840-3_29, author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto", editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo", title="Neural Learning for Question Answering in Italian", booktitle="AI*IA 2018 -- Advances in Artificial Intelligence", year="2018", publisher="Springer International Publishing", address="Cham", pages="389--402", isbn="978-3-030-03840-3" }
感谢 @thomwolf 、 @lewtun 、 @albertvillanova 、 @mariamabarham 、 @patrickvonplaten 添加了该数据集。