数据集:
clinc_oos
任务:
文本分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original许可:
cc-by-3.0任务导向的对话系统需要知道查询是否超出其支持的意图范围,但目前的文本分类语料库只定义了覆盖所有示例的标签集。我们引入了一个新的数据集,其中包括超出范围的查询(OOS),即不属于系统支持的任何意图的查询。这带来了一个新的挑战,因为模型不能假设推理时的每个查询都属于系统支持的意图类。我们的数据集还涵盖了10个领域的150个意图类,捕捉了生产任务导向的代理程序必须处理的广度。它提供了一种在任务驱动的对话系统中更严格和更实际地对文本分类进行基准测试的方法。
英语
下面是来自训练集的一个样本:
{ 'text' : 'can you walk me through setting up direct deposits to my bank of internet savings account', 'label' : 108 }
标签ID到标签名称的映射在下表中列出:
| 标签ID | 标签名称 | |--- |--- | | 0 | 餐厅评论 | | 1 | 营养信息 | | 2 | 账户锁定 | | 3 | 更换机油方法 | | 4 | 时间 | | 5 | 天气 | | 6 | 兑换奖励 | | 7 | 利率 | | 8 | 汽油类型 | | 9 | 接受预订 | | 10 | 智能家居 | | 11 | 用户姓名 | | 12 | 报告丢失的卡 | | 13 | 重复 | | 14 | 悄悄模式 | | 15 | 你的爱好是什么 | | 16 | 订单 | | 17 | 跳车启动 | | 18 | 安排会议 | | 19 | 会议日程 | | 20 | 冻结账户 | | 21 | 什么歌曲 | | 22 | 生命的意义 | | 23 | 餐厅预订 | | 24 | 交通 | | 25 | 打电话 | | 26 | 发送短信 | | 27 | 账单余额 | | 28 | 提高信用分 | | 29 | 更改语言 | | 30 | 不 | | 31 | 计量单位转换 | | 32 | 计时器 | | 33 | 抛硬币 | | 34 | 你有宠物吗 | | 35 | 余额 | | 36 | 讲个笑话 | | 37 | 上次维护 | | 38 | 汇率 | | 39 | 优步 | | 40 | 租车 | | 41 | 信用额度 | | 42 | 超范围 | | 43 | 购物清单 | | 44 | 过期日期 | | 45 | 路由 | | 46 | 膳食建议 | | 47 | 更换轮胎 | | 48 | 待办事项列表 | | 49 | 卡被拒绝 | | 50 | 奖励余额 | | 51 | 更改口音 | | 52 | 疫苗 | | 53 | 提醒更新 | | 54 | 食物最后 | | 55 | 更改AI名称 | | 56 | 账单到期 | | 57 | 你为谁工作 | | 58 | 共享位置 | | 59 | 国际签证 | | 60 | 日历 | | 61 | 翻译 | | 62 | 随身行李 | | 63 | 预订航班 | | 64 | 保险更改 | | 65 | 待办事项更新 | | 66 | 时区 | | 67 | 取消预订 | | 68 | 交易记录 | | 69 | 信用评分 | | 70 | 报告欺诈 | | 71 | 消费历史记录 | | 72 | 导航 | | 73 | 拼写 | | 74 | 保险 | | 75 | 你叫什么名字 | | 76 | 提醒 | | 77 | 你来自哪里 | | 78 | 距离 | | 79 | 发薪日 | | 80 | 航班状态 | | 81 | 找手机 | | 82 | 问候 | | 83 | 闹钟 | | 84 | 订单状态 | | 85 | 确认预订 | | 86 | 烹饪时间 | | 87 | 损坏的卡 | | 88 | 重置设置 | | 89 | 改变密码 | | 90 | 更换卡持续时间 | | 91 | 新卡 | | 92 | 摇骰子 | | 93 | 收入 | | 94 | 税务 | | 95 | 日期 | | 96 | 谁造了你 | | 97 | 请假申请 | | 98 | 轮胎气压 | | 99 | 你多大了 | | 100 | 401k滚存 | | 101 | 请假请求状态 | | 102 | 有多忙 | | 103 | 申请状态 | | 104 | 食谱 | | 105 | 日历更新 | | 106 | 播放音乐 | | 107 | 是的 | | 108 | 直接存款 | | 109 | 信用额度变更 | | 110 | 汽油 | | 111 | 付账单 | | 112 | 配料清单 | | 113 | 行李丢失 | | 114 | 再见 | | 115 | 我可以问你什么 | | 116 | 预订酒店 | | 117 | 你是机器人吗 | | 118 | 下一首歌 | | 119 | 改变速度 | | 120 | 插头类型 | | 121 | 可能 | | 122 | W2 | | 123 | 什么时候换机油 | | 124 | 谢谢 | | 125 | 更新购物清单 | | 126 | 请假余额 | | 127 | 订单支票 | | 128 | 旅行提醒 | | 129 | 有趣的事实 | | 130 | 同步设备 | | 131 | 安排维护 | | 132 | 年利率 | | 133 | 转账 | | 134 | 替代配料 | | 135 | 卡路里 | | 136 | 当前位置 | | 137 | 国际费用 | | 138 | 计算器 | | 139 | 定义 | | 140 | 下一个假期 | | 141 | 更新播放列表 | | 142 | 每加仑英里数 | | 143 | 最低还款额 | | 144 | 更改用户名 | | 145 | 餐厅建议 | | 146 | 旅行通知 | | 147 | 取消 | | 148 | 已使用的请假 | | 149 | 旅行建议 | | 150 | 改变音量 |
该数据集分为不同的子集:
name | train | validation | test |
---|---|---|---|
small | 7600 | 3100 | 5500 |
imbalanced | 10625 | 3100 | 5500 |
plus | 15250 | 3100 | 5500 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{larson-etal-2019-evaluation, title = "An Evaluation Dataset for Intent Classification and Out-of-Scope Prediction", author = "Larson, Stefan and Mahendran, Anish and Peper, Joseph J. and Clarke, Christopher and Lee, Andrew and Hill, Parker and Kummerfeld, Jonathan K. and Leach, Kevin and Laurenzano, Michael A. and Tang, Lingjia and Mars, Jason", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)", year = "2019", url = "https://www.aclweb.org/anthology/D19-1131" }
感谢 @sumanthd17 添加此数据集。