数据集:

squad_it

任务:

问答

子任务:

open-domain-qa extractive-qa

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

machine-generated

批注创建人:

machine-generated

源数据集:

extended|squad

许可:

license:unknown

数据集介绍文件清单

英文

"squad_it" 数据集卡片

数据集概述

SQuAD-it 是由 SQuAD 数据集衍生而来，通过半自动方式将 SQuAD 数据集翻译成意大利语。它是一个大规模的数据集，用于意大利语上的事实型问题开放式问答任务。该数据集包含从原始英文数据集中产生的超过60,000个问题/答案对。数据集被分为训练集和测试集，以支持 QA 系统的基准测试的可重复性。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default

下载的数据集文件大小：8.78 MB
生成的数据集大小：58.79 MB
总磁盘使用量：67.57 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "answers": "{\"answer_start\": [243, 243, 243, 243, 243], \"text\": [\"evitare di essere presi di mira dal boicottaggio\", \"evitare di essere pres...",
    "context": "\"La crisi ha avuto un forte impatto sulle relazioni internazionali e ha creato una frattura all' interno della NATO. Alcune nazi...",
    "id": "5725b5a689a1e219009abd28",
    "question": "Perchè le nazioni europee e il Giappone si sono separati dagli Stati Uniti durante la crisi?"
}

数据字段

所有拆分的数据字段相同。

default

id：字符串特征。
上下文：字符串特征。
问题：字符串特征。
答案：包含的字典特征：
- 文本：字符串特征。
- 答案起始位置：int32特征。

数据拆分

name	train	test
default	54159	7609

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者？

More Information Needed

注释

注释过程

More Information Needed

谁是标注者？

More Information Needed

个人隐私信息

More Information Needed

数据使用注意事项

其他信息

数据集策展人

More Information Needed

授权信息

More Information Needed

引用信息

@InProceedings{10.1007/978-3-030-03840-3_29,
    author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
    editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
    title="Neural Learning for Question Answering in Italian",
    booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
    year="2018",
    publisher="Springer International Publishing",
    address="Cham",
    pages="389--402",
    isbn="978-3-030-03840-3"
}

贡献者

感谢 @thomwolf 、 @lewtun 、 @albertvillanova 、 @mariamabarham 、 @patrickvonplaten 添加了该数据集。

作者:

佚名

数据集大小:

15.32 KB

"squad_it" 数据集卡片

数据集概述

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策展理由

源数据

注释

个人隐私信息

数据使用注意事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集策展人

授权信息

引用信息

贡献者