数据集:

scan

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:1711.00350

其他:

multi-turn

许可:

bsd
英文

"scan" 数据集卡片

数据集摘要

使用不同的划分方式的SCAN任务。

SCAN是一组用于研究组合学习和零样本泛化的简单语言驱动导航任务。

详见 https://github.com/brendenlake/SCAN 以获取划分的描述。

示例用法: data = datasets.load_dataset('scan/length')

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

addprim_jump
  • 下载的数据集文件大小: 18.69 MB
  • 生成的数据集大小: 4.05 MB
  • 总磁盘使用量: 22.73 MB

'train'的一个示例如下所示。

addprim_turn_left
  • 下载的数据集文件大小: 18.69 MB
  • 生成的数据集大小: 4.09 MB
  • 总磁盘使用量: 22.76 MB

'train'的一个示例如下所示。

filler_num0
  • 下载的数据集文件大小: 18.69 MB
  • 生成的数据集大小: 2.85 MB
  • 总磁盘使用量: 21.53 MB

'train'的一个示例如下所示。

filler_num1
  • 下载的数据集文件大小: 18.69 MB
  • 生成的数据集大小: 3.14 MB
  • 总磁盘使用量: 21.82 MB

'train'的一个示例如下所示。

filler_num2
  • 下载的数据集文件大小: 18.69 MB
  • 生成的数据集大小: 3.44 MB
  • 总磁盘使用量: 22.12 MB

'train'的一个示例如下所示。

数据字段

所有划分中的数据字段是相同的。

addprim_jump
  • commands : 一个字串特征。
  • actions : 一个字串特征。
addprim_turn_left
  • commands : 一个字串特征。
  • actions : 一个字串特征。
filler_num0
  • commands : 一个字串特征。
  • actions : 一个字串特征。
filler_num1
  • commands : 一个字串特征。
  • actions : 一个字串特征。
filler_num2
  • commands : 一个字串特征。
  • actions : 一个字串特征。

数据划分

name train test
addprim_jump 14670 7706
addprim_turn_left 21890 1208
filler_num0 15225 1173
filler_num1 16290 1173
filler_num2 17391 1173

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

资源语言生成者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏倚讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{Lake2018GeneralizationWS,
  title={Generalization without Systematicity: On the Compositional Skills of
         Sequence-to-Sequence Recurrent Networks},
  author={Brenden M. Lake and Marco Baroni},
  booktitle={ICML},
  year={2018},
  url={https://arxiv.org/pdf/1711.00350.pdf},
}

贡献者

感谢 @lewtun @patrickvonplaten @mariamabarham @thomwolf 添加此数据集。