可以在 GEM Website 找到主数据卡。
捷克餐厅数据集是一个以任务为导向的对话数据集,模型需要根据一系列的对话行为指定响应,来表达服务代理可以提供的回应。该数据集最初是将英语数据集翻译成捷克语,用于测试自然语言生成系统在摩尔菲学丰富的语言如捷克语上的生成能力。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/cs_restaurants')
数据加载程序可以在 here 找到。
websiten/a
paper authorsOndrej Dusek 和 Filip Jurcicek
@inproceedings{cs_restaurants, address = {Tokyo, Japan}, title = {Neural {Generation} for {Czech}: {Data} and {Baselines}}, shorttitle = {Neural {Generation} for {Czech}}, url = {https://www.aclweb.org/anthology/W19-8670/}, urldate = {2019-10-18}, booktitle = {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)}, author = {Dušek, Ondřej and Jurčíček, Filip}, month = oct, year = {2019}, pages = {563--574}, }联系人姓名
Ondrej Dusek
联系人邮箱odusek@ufal.mff.cuni.cz
是否有排行榜?否
否
覆盖方言未提供方言细分。
覆盖语言捷克语
谁的语言?由六名专业翻译者生成了输出
许可证cc-by-sa-4.0:知识共享署名相同方式共享4.0国际许可
预期使用情况该数据集被创建用于测试捷克语的神经自然语言生成系统以及其处理丰富的形态的能力。
主任务对话响应生成
传达目标生成表达给定意图/对话行为的文本,并且仅包括输入意思表达中指定的所有和仅有的属性。
学术
策划组织布拉格查理大学
数据集创建者Ondrej Dusek 和 Filip Jurcicek
资金支持此研究得到布拉格查理大学项目 PRIMUS/19/SCI/10 和捷克共和国教育、青年和体育部在授予协议 LK11221 下的支持。此工作使用捷克共和国教育、青年和体育部 LINDAT/CLARIN 项目分发的语言资源(项目 LM2015071)。
谁将数据集添加到 GEM 中?Simon Mille 编写了初始数据卡,Yacine Jernite 编写了数据加载程序。Sebastian Gehrmann 将数据卡和加载程序迁移到 v2 格式。
数据以 JSON 或 CSV 格式存储,内容相同。数据有 4 个字段:
此外,数据包含一个 JSON 文件,其中包含数据集中所有槽值的所有可能的词形变化形式(surface_forms.json)。每个槽 -> 值条目都包含给定值的词形的列表,其中包括基本形式(词元)、词形变化形式和一个 morphological tag 。
同一个 MR 通常会以不同的同义参考文本重复多次。
结构原因数据最初是作为 Wen et al.'s SF restaurant NLG 数据集的翻译和本地化产生的。
如何选择标签?输入 MR 是通过从 Wen et al.'s SF restaurant NLG 数据中收集,并随机替换槽值(使用布拉格餐厅名称、街区等的列表)。生成的槽值然后自动替换数据中的参考文本。
示例实例{ "input": "inform_only_match(food=Turkish,name='Švejk Restaurant',near='Charles Bridge',price_range=cheap)", "target": "Našla jsem pouze jednu levnou restauraci poblíž Karlova mostu , kde podávají tureckou kuchyni , Švejk Restaurant ." }数据分割
Property | Value |
---|---|
Total instances | 5,192 |
Unique MRs | 2,417 |
Unique delexicalized instances | 2,752 |
Unique delexicalized MRs | 248 |
数据在大约 3:1:1 的比例上分为训练、开发和测试部分,确保没有去词义化 MR 出现在两个不同的部分。另一方面,大多数 DA 类型/意图在所有数据部分中都有表示。
分割标准创建者确保去词义化意思表示后训练集和测试集之间没有重叠。
数据按 3:1:1 比率划分为训练、验证和测试集。
这是很少有以捷克语为基准的非英语数据到文本数据集之一,它涵盖了一个著名的领域,但涵盖了一个形态学丰富的语言,这使得它更难应用常见的去词义化或复制机制等技术。
类似数据集是
独特的语言覆盖度是
与其他 GEM 数据集的不同之处与最接近的 e2e 数据集相比,该数据集中的对话行为要多得多。
数据集衡量的能力表面表达
是
是否有其他分割?是
分割信息捷克餐厅数据集的 GEM 评估套件中添加了 5 个挑战集。
第一个比较是基于输入大小:不同输入之间的谓词数量不同,范围从 1 到 5。下表提供了具有特定长度的输入分布的指示。从表中可以清楚地看出,该分布并不平衡,对于项目之间的比较应该谨慎进行。特别对于输入大小为 4 和 5,可能没有足够的数据来得出可靠的结论。
Input length | Number of inputs |
---|---|
1 | 183 |
2 | 267 |
3 | 297 |
4 | 86 |
5 | 9 |
第二个比较是基于行为类型。同样,我们警告不要比较不同的低频项组。可能可以比较 inform 和 ?request ,但其他行为都是低频的。
Act | Frequency |
---|---|
?request | 149 |
inform | 609 |
?confirm | 22 |
inform_only_match | 16 |
inform_no_match | 34 |
?select | 12 |
泛化和鲁棒性。
表面表达
指标BLEU , ROUGE , METEOR
提出的评估该数据集使用 E2E NLG 挑战的一套基于单词重叠的自动评估指标(BLEU、NIST、ROUGE-L、METEOR 和 CIDEr)。此外,还测量了槽错误率。
是否有以前的结果?否
创建该数据集是为了测试神经自然语言生成系统在捷克语上处理丰富的形态的能力。
传达目标生成表达给定意图/对话行为的文本,并且仅包括输入 MR 中指定的所有和仅有的属性。
是否从不同来源收集的数据?否
为数据集创建的
创建过程六名专业翻译者翻译了基础数据集,并按照以下说明进行操作:
翻译者无法访问意思表达。
数据验证由数据策划员验证
是否筛选了数据?未筛选
无
注释服务?否
否
使用数据的理由并未明确说明,但我们可以安全地假设翻译者同意将其数据用于此目的。
不包含 PII
无PII的理由此数据集不包含与个人有关的任何信息。
否
否
是
有关数据集如何解决需求的详细信息该数据集可能有助于改进捷克语之外的形态学丰富语言的自然语言生成方法。
是
分析工作的链接和概要为确保翻译的一致性,数据始终使用对用户的正式/礼貌称呼,并使用女性形式进行第一人称自我参照(好像生成句子的对话代理是女性)。这样做可以防止数据稀疏,并确保受过训练的系统产生一致的结果,但并不能代表捷克语中可能出现的所有潜在情况。
开放许可证-允许商业使用
语言数据是否受版权限制开放许可证-允许商业使用
测试集可能导致用户高估其 NLG 系统的性能,因为测试集中没有看不见的餐厅或地址。这是我们将来 GEM 共享任务的版本将要研究的内容。