数据集:

squad_it

英文

"squad_it" 数据集卡片

数据集概述

SQuAD-it 是由 SQuAD 数据集衍生而来,通过半自动方式将 SQuAD 数据集翻译成意大利语。它是一个大规模的数据集,用于意大利语上的事实型问题开放式问答任务。该数据集包含从原始英文数据集中产生的超过60,000个问题/答案对。数据集被分为训练集和测试集,以支持 QA 系统的基准测试的可重复性。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小:8.78 MB
  • 生成的数据集大小:58.79 MB
  • 总磁盘使用量:67.57 MB

'train' 的一个示例如下所示。

This example was too long and was cropped:

{
    "answers": "{\"answer_start\": [243, 243, 243, 243, 243], \"text\": [\"evitare di essere presi di mira dal boicottaggio\", \"evitare di essere pres...",
    "context": "\"La crisi ha avuto un forte impatto sulle relazioni internazionali e ha creato una frattura all' interno della NATO. Alcune nazi...",
    "id": "5725b5a689a1e219009abd28",
    "question": "Perchè le nazioni europee e il Giappone si sono separati dagli Stati Uniti durante la crisi?"
}

数据字段

所有拆分的数据字段相同。

default
  • id:字符串特征。
  • 上下文:字符串特征。
  • 问题:字符串特征。
  • 答案:包含的字典特征:
    • 文本:字符串特征。
    • 答案起始位置:int32特征。

数据拆分

name train test
default 54159 7609

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是标注者?

More Information Needed

个人隐私信息

More Information Needed

数据使用注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策展人

More Information Needed

授权信息

More Information Needed

引用信息

@InProceedings{10.1007/978-3-030-03840-3_29,
    author="Croce, Danilo and Zelenanska, Alexandra and Basili, Roberto",
    editor="Ghidini, Chiara and Magnini, Bernardo and Passerini, Andrea and Traverso, Paolo",
    title="Neural Learning for Question Answering in Italian",
    booktitle="AI*IA 2018 -- Advances in Artificial Intelligence",
    year="2018",
    publisher="Springer International Publishing",
    address="Cham",
    pages="389--402",
    isbn="978-3-030-03840-3"
}

贡献者

感谢 @thomwolf @lewtun @albertvillanova @mariamabarham @patrickvonplaten 添加了该数据集。