数据集:

GEM/cs_restaurants

任务:

对话

语言:

cs

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original
英文

GEM/cs_restaurants 数据集卡片

主数据卡链接

可以在 GEM Website 找到主数据卡。

数据集摘要

捷克餐厅数据集是一个以任务为导向的对话数据集,模型需要根据一系列的对话行为指定响应,来表达服务代理可以提供的回应。该数据集最初是将英语数据集翻译成捷克语,用于测试自然语言生成系统在摩尔菲学丰富的语言如捷克语上的生成能力。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/cs_restaurants')

数据加载程序可以在 here 找到。

website

n/a

paper

Github

authors

Ondrej Dusek 和 Filip Jurcicek

数据集概览

数据及其文档的获取方式

下载

Github

Paper

Github

BibTex
@inproceedings{cs_restaurants,
    address = {Tokyo, Japan},
    title = {Neural {Generation} for {Czech}: {Data} and {Baselines}},
    shorttitle = {Neural {Generation} for {Czech}},
    url = {https://www.aclweb.org/anthology/W19-8670/},
    urldate = {2019-10-18},
    booktitle = {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
    author = {Dušek, Ondřej and Jurčíček, Filip},
    month = oct,
    year = {2019},
    pages = {563--574},
}
联系人姓名

Ondrej Dusek

联系人邮箱

odusek@ufal.mff.cuni.cz

是否有排行榜?

语言和使用目的

是否多语言?

覆盖方言

未提供方言细分。

覆盖语言

捷克语

谁的语言?

由六名专业翻译者生成了输出

许可证

cc-by-sa-4.0:知识共享署名相同方式共享4.0国际许可

预期使用情况

该数据集被创建用于测试捷克语的神经自然语言生成系统以及其处理丰富的形态的能力。

主任务

对话响应生成

传达目标

生成表达给定意图/对话行为的文本,并且仅包括输入意思表达中指定的所有和仅有的属性。

授信

策划组织类型

学术

策划组织

布拉格查理大学

数据集创建者

Ondrej Dusek 和 Filip Jurcicek

资金支持

此研究得到布拉格查理大学项目 PRIMUS/19/SCI/10 和捷克共和国教育、青年和体育部在授予协议 LK11221 下的支持。此工作使用捷克共和国教育、青年和体育部 LINDAT/CLARIN 项目分发的语言资源(项目 LM2015071)。

谁将数据集添加到 GEM 中?

Simon Mille 编写了初始数据卡,Yacine Jernite 编写了数据加载程序。Sebastian Gehrmann 将数据卡和加载程序迁移到 v2 格式。

数据集结构

数据字段

数据以 JSON 或 CSV 格式存储,内容相同。数据有 4 个字段:

  • da :输入意思表达/对话行为(MR)
  • delex_da :输入 MR,去词义化-所有槽值都替换为占位符,如 X-name
  • text :相应的目标自然语言文本(参考)
  • delex_text :目标文本,去词义化(不考虑词形变化)

此外,数据包含一个 JSON 文件,其中包含数据集中所有槽值的所有可能的词形变化形式(surface_forms.json)。每个槽 -> 值条目都包含给定值的词形的列表,其中包括基本形式(词元)、词形变化形式和一个 morphological tag

同一个 MR 通常会以不同的同义参考文本重复多次。

结构原因

数据最初是作为 Wen et al.'s SF restaurant NLG 数据集的翻译和本地化产生的。

如何选择标签?

输入 MR 是通过从 Wen et al.'s SF restaurant NLG 数据中收集,并随机替换槽值(使用布拉格餐厅名称、街区等的列表)。生成的槽值然后自动替换数据中的参考文本。

示例实例
{
  "input": "inform_only_match(food=Turkish,name='Švejk Restaurant',near='Charles Bridge',price_range=cheap)",
  "target": "Našla jsem pouze jednu levnou restauraci poblíž Karlova mostu , kde podávají tureckou kuchyni , Švejk Restaurant ."
}
数据分割
Property Value
Total instances 5,192
Unique MRs 2,417
Unique delexicalized instances 2,752
Unique delexicalized MRs 248

数据在大约 3:1:1 的比例上分为训练、开发和测试部分,确保没有去词义化 MR 出现在两个不同的部分。另一方面,大多数 DA 类型/意图在所有数据部分中都有表示。

分割标准

创建者确保去词义化意思表示后训练集和测试集之间没有重叠。

数据按 3:1:1 比率划分为训练、验证和测试集。

GEM 中的数据集

加入 GEM 的原因

为何将数据集加入 GEM?

这是很少有以捷克语为基准的非英语数据到文本数据集之一,它涵盖了一个著名的领域,但涵盖了一个形态学丰富的语言,这使得它更难应用常见的去词义化或复制机制等技术。

类似数据集

独特的语言覆盖度

与其他 GEM 数据集的不同之处

与最接近的 e2e 数据集相比,该数据集中的对话行为要多得多。

数据集衡量的能力

表面表达

GEM-特定策划

是否修改用于 GEM?

是否有其他分割?

分割信息

捷克餐厅数据集的 GEM 评估套件中添加了 5 个挑战集。

  • 数据偏移:我们创建了 500 个随机选择的输入的训练集和开发集子集。
  • 混淆:我们对 500 个随机选择的测试实例的输入进行了混淆;输入对话行为的顺序被随机重新分配。
  • 我们确定了不同的测试集子集,可以相互比较,以更好地了解结果。目前有两个选择:
  • 第一个比较是基于输入大小:不同输入之间的谓词数量不同,范围从 1 到 5。下表提供了具有特定长度的输入分布的指示。从表中可以清楚地看出,该分布并不平衡,对于项目之间的比较应该谨慎进行。特别对于输入大小为 4 和 5,可能没有足够的数据来得出可靠的结论。

    Input length Number of inputs
    1 183
    2 267
    3 297
    4 86
    5 9

    第二个比较是基于行为类型。同样,我们警告不要比较不同的低频项组。可能可以比较 inform 和 ?request ,但其他行为都是低频的。

    Act Frequency
    ?request 149
    inform 609
    ?confirm 22
    inform_only_match 16
    inform_no_match 34
    ?select 12
    分割动机

    泛化和鲁棒性。

    开始执行任务

    技术术语
    • 话语:系统或用户可能在对话中说的内容
    • 意思表达:系统应遵循的意思的一种表示形式。此数据集中的特定 MR 是描述对话系统应该做什么的对话行为,比如告知用户一个值。

    以前的结果

    以前的结果

    评估模型的能力

    表面表达

    指标

    BLEU , ROUGE , METEOR

    提出的评估

    该数据集使用 E2E NLG 挑战的一套基于单词重叠的自动评估指标(BLEU、NIST、ROUGE-L、METEOR 和 CIDEr)。此外,还测量了槽错误率。

    是否有以前的结果?

    数据集策划

    原始策划

    原始策划原因

    创建该数据集是为了测试神经自然语言生成系统在捷克语上处理丰富的形态的能力。

    传达目标

    生成表达给定意图/对话行为的文本,并且仅包括输入 MR 中指定的所有和仅有的属性。

    是否从不同来源收集的数据?

    语言数据

    如何获取语言数据?

    为数据集创建的

    创建过程

    六名专业翻译者翻译了基础数据集,并按照以下说明进行操作:

    • 每个话语应该单独翻译
    • 应生成流利的口语捷克语
    • 需要保留事实
    • 如有可能,应变化同义词以创建多样的话语
    • 实体名称应根据需要进行词形变化
    • 生成的文本应以正式形式称呼读者,自我参照应使用女性形式。

    翻译者无法访问意思表达。

    数据验证

    由数据策划员验证

    是否筛选了数据?

    未筛选

    结构化注释

    是否有其他注释?

    注释服务?

    同意

    是否有同意政策?

    使用数据的理由

    并未明确说明,但我们可以安全地假设翻译者同意将其数据用于此目的。

    私人识别信息 (PII)

    包含 PII 吗?

    不包含 PII

    无PII的理由

    此数据集不包含与个人有关的任何信息。

    维护

    是否有维护计划?

    更广泛的社会背景

    对数据集社会影响的先前研究

    基于数据的模型的使用

    对弱势社群的影响

    是否解决了弱势社群的需求?

    有关数据集如何解决需求的详细信息

    该数据集可能有助于改进捷克语之外的形态学丰富语言的自然语言生成方法。

    偏见讨论

    是否有记录的社会偏见?

    分析工作的链接和概要

    为确保翻译的一致性,数据始终使用对用户的正式/礼貌称呼,并使用女性形式进行第一人称自我参照(好像生成句子的对话代理是女性)。这样做可以防止数据稀疏,并确保受过训练的系统产生一致的结果,但并不能代表捷克语中可能出现的所有潜在情况。

    使用数据的注意事项

    PII 风险和责任

    许可证

    数据集是否受版权限制

    开放许可证-允许商业使用

    语言数据是否受版权限制

    开放许可证-允许商业使用

    已知的技术限制

    技术限制

    测试集可能导致用户高估其 NLG 系统的性能,因为测试集中没有看不见的餐厅或地址。这是我们将来 GEM 共享任务的版本将要研究的内容。