数据集:

snips_built_in_intents

任务:

文本分类

子任务:

intent-classification

语言:

计算机处理:

monolingual

大小:

n<1K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1805.10190

许可:

cc0-1.0

数据集介绍文件清单

英文

Snips内置意图的数据集卡片

数据集摘要

Snips内置意图的数据集最初用于比较不同的语音助手，并作为托管在 https://github.com/sonos/nlu-benchmark 文件夹中的公共数据集发布。该数据集包含10个意图类别的328个发言。相关的Medium文章是 https://medium.com/snips-ai/benchmarking-natural-language-understanding-systems-d35be6ce568d 。

支持的任务和排行榜

没有相关的共享任务。

语言

英语

数据集结构

数据实例

该数据集包含10个意图类别的328个发言。每个样本的格式如下：{'label': 8, 'text': 'Transit directions to Barcelona Pizza.'}

数据字段

text：表达某个用户意图的文本发言。
label：文本发言的意图标签。

数据拆分

源数据没有进行拆分。

数据集创建

策划理由

该数据集最初是为了比较多个语音助手的性能而创建的。然而，标记的发言对于开发和基准测试文本聊天机器人也很有用。

源数据

初始数据收集和规范化

不清楚数据是如何收集的。从Medium文章中得知：基准测试依赖于Snips业务团队创建的一组328个查询，并且在解决方案的开发过程中对数据科学家和工程师保密。

谁是源语言的制作者？

最初由snips.ai准备。Snips团队于2019年11月加入Sonos。这些开放数据集仍然可用，现在由Sonos Voice Experience团队负责管理访问权限。如有任何问题，请发送电子邮件至sve-research@sonos.com。

注释

注释过程

注释者是谁？

[更多信息待添加]

个人和敏感信息

[更多信息待添加]

使用数据的注意事项

数据的社会影响

[更多信息待添加]

偏见讨论

[更多信息待添加]

其他已知限制

[更多信息待添加]

其他信息

数据集策划者

许可信息

源数据采用创作共用协议第1版通用零许可。

引用信息

基于这些数据集的任何出版物必须包含对Snips团队于以下论文中发表的结果的完整引用：

Coucke A. et al.，“Snips Voice Platform：面向私有设计语音界面的嵌入式语音语言理解系统。” CoRR 2018， https://arxiv.org/abs/1805.10190

贡献

感谢 @bduvenhage 添加了该数据集。

作者:

佚名

数据集大小:

15.26 KB