数据集:

e2e_nlg

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

original
英文

End-to-End NLG Challenge 数据集卡片

数据集概要

E2E数据集用于训练餐厅领域的端到端数据驱动的自然语言生成系统,其大小是该领域现有常用数据集的十倍. E2E数据集提供了新的挑战:(1)人类参考文本展示了更丰富的词汇和句法变化,包括话语现象;(2)从该数据集中生成需要内容选择. 因此,从这个数据集中学习可以产生更加自然、多样且不太像模板的系统话语.

E2E在以下论文中发布,您可以找到更多详细信息和基线结果: https://arxiv.org/abs/1706.09254

支持的任务和排行榜

  • text2text-generation-other-meaning-representation-to-text: 该数据集可用于训练模型,从意义表示中生成餐厅领域的描述,即将关于餐厅的一些数据作为输入,生成一个用自然语言描述该餐厅不同方面的句子. 该任务的成功通常通过实现高 BLEU NIST METEOR Rouge-L CIDEr 来衡量. TGen模型(Dusek and Jurcıcek, 2016a)被用作基线模型,其得分如下:
BLEU NIST METEOR ROUGE_L CIDEr
BASELINE 0.6593 8.6094 0.4483 0.6850 2.2338

该任务有一个不活跃的排行榜,可以在 here 中找到,并根据上述指标对模型进行排序.

语言

该数据集是英语(en).

数据集结构

数据实例

一个实例的例子:

{'human_reference': 'The Vaults pub near Café Adriatic has a 5 star rating.  Prices start at £30.',
 'meaning_representation': 'name[The Vaults], eatType[pub], priceRange[more than £30], customer rating[5 out of 5], near[Café Adriatic]'}

数据字段

  • human_reference: string,文本是用自然语言描述意义表示中的不同特征
  • meaning_representation: slots和values的列表,用于生成描述

每个MR由3-8个属性(slots)组成,如名称、食物或区域,以及它们的值.

数据集拆分

该数据集按照训练、验证和测试集的比例(76.5-8.5-15)进行拆分,保持了MR和参考文本长度的类似分布,并确保不同集合中的MR是不同的.

train validation test
N. Instances 42061 4672 4693

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和标准化

使用CrowdFlower平台收集数据,并根据Novikova等人(2016年)的方法进行了质量控制.

谁是源语言生成者?

[需要更多信息]

注释

按照Novikova等人(2016年)的方法,使用图片作为刺激来收集E2E数据,这被证明比文本MRs能够引发更自然、更有信息量和更好的措辞的参考人.

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{dusek.etal2020:csl,
  title = {Evaluating the {{State}}-of-the-{{Art}} of {{End}}-to-{{End Natural Language Generation}}: {{The E2E NLG Challenge}}},
  author = {Du{\v{s}}ek, Ond\v{r}ej and Novikova, Jekaterina and Rieser, Verena},
  year = {2020},
  month = jan,
  volume = {59},
  pages = {123--156},
  doi = {10.1016/j.csl.2019.06.009},
  archivePrefix = {arXiv},
  eprint = {1901.11528},
  eprinttype = {arxiv},
  journal = {Computer Speech \& Language}

贡献

感谢 @lhoestq 添加此数据集.