数据集:

scan

任务:

文生文

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:1711.00350

其他:

multi-turn

许可:

bsd

数据集介绍文件清单

英文

"scan" 数据集卡片

数据集摘要

使用不同的划分方式的SCAN任务。

SCAN是一组用于研究组合学习和零样本泛化的简单语言驱动导航任务。

详见 https://github.com/brendenlake/SCAN 以获取划分的描述。

示例用法: data = datasets.load_dataset('scan/length')

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

addprim_jump

下载的数据集文件大小: 18.69 MB
生成的数据集大小: 4.05 MB
总磁盘使用量: 22.73 MB

'train'的一个示例如下所示。

addprim_turn_left

下载的数据集文件大小: 18.69 MB
生成的数据集大小: 4.09 MB
总磁盘使用量: 22.76 MB

'train'的一个示例如下所示。

filler_num0

下载的数据集文件大小: 18.69 MB
生成的数据集大小: 2.85 MB
总磁盘使用量: 21.53 MB

'train'的一个示例如下所示。

filler_num1

下载的数据集文件大小: 18.69 MB
生成的数据集大小: 3.14 MB
总磁盘使用量: 21.82 MB

'train'的一个示例如下所示。

filler_num2

下载的数据集文件大小: 18.69 MB
生成的数据集大小: 3.44 MB
总磁盘使用量: 22.12 MB

'train'的一个示例如下所示。

数据字段

所有划分中的数据字段是相同的。

addprim_jump

commands : 一个字串特征。
actions : 一个字串特征。

addprim_turn_left

commands : 一个字串特征。
actions : 一个字串特征。

filler_num0

commands : 一个字串特征。
actions : 一个字串特征。

filler_num1

commands : 一个字串特征。
actions : 一个字串特征。

filler_num2

commands : 一个字串特征。
actions : 一个字串特征。

数据划分

name	train	test
addprim_jump	14670	7706
addprim_turn_left	21890	1208
filler_num0	15225	1173
filler_num1	16290	1173
filler_num2	17391	1173

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

资源语言生成者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{Lake2018GeneralizationWS,
  title={Generalization without Systematicity: On the Compositional Skills of
         Sequence-to-Sequence Recurrent Networks},
  author={Brenden M. Lake and Marco Baroni},
  booktitle={ICML},
  year={2018},
  url={https://arxiv.org/pdf/1711.00350.pdf},
}

贡献者

感谢 @lewtun 、 @patrickvonplaten 、 @mariamabarham 、 @thomwolf 添加此数据集。

作者:

佚名

数据集大小:

37.84 KB

"scan" 数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据划分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏倚讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献者