数据集:

GEM/conversational_weather

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original
英文

GEM/conversational_weather 数据集卡片

主要数据卡片链接

您可以在 GEM Website 找到主要数据卡片。

数据集概述

此数据集的目的是评估模型在非常低的数据环境中学习模板样式结构的效果。任务是对与天气相关的查询生成回应。回应通过输入中的数据属性和话语结构进一步说明。输出包含词汇化的文本和用于属性的话语标记(例如,_ARG_TEMP_ 34)。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/conversational_weather')

数据加载器可以在 here 找到。

paper

ACL Anthology

authors

阿努莎·巴拉克里希南(Anusha Balakrishnan),金凤·劳(Jinfeng Rao),卡蒂凯亚·乌帕萨尼(Kartikeya Upasani),迈克尔·怀特(Michael White),拉杰·苏巴(Rajen Subba)(Facebook对话人工智能)

数据集概述

数据和文档的获取方式

下载

Github

论文

ACL Anthology

BibTex
@inproceedings{balakrishnan-etal-2019-constrained,
  title = "Constrained Decoding for Neural {NLG} from Compositional Representations in Task-Oriented Dialogue",
  author = "Balakrishnan, Anusha  and
    Rao, Jinfeng  and
    Upasani, Kartikeya  and
    White, Michael  and
    Subba, Rajen",
  booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics",
  month = jul,
  year = "2019",
  address = "Florence, Italy",
  publisher = "Association for Computational Linguistics",
  url = "https://www.aclweb.org/anthology/P19-1080",
  doi = "10.18653/v1/P19-1080",
  pages = "831--844"
}
联系人姓名

卡蒂凯亚·乌帕萨尼

联系人邮箱

kart@fb.com

有排行榜吗?

语言和预期用途

多语言吗?

支持的语言

英语

许可协议

cc-by-nc-4.0:署名-非商业性使用-相同方式共享 4.0 国际

预期用途

该数据集旨在帮助开发表现出人类特性的对话代理,例如与查询匹配的回应框架或对比相关的数据属性。

主要任务

数据到文本

交流目标

生成作为输入意义表征中指定的话语结构和数据属性响应的文本。

致谢

策划组织类型

工业

策划组织

Facebook

数据集创建者

阿努莎·巴拉克里希南(Anusha Balakrishnan),金凤·劳(Jinfeng Rao),卡蒂凯亚·乌帕萨尼(Kartikeya Upasani),迈克尔·怀特(Michael White),拉杰·苏巴(Rajen Subba)(Facebook对话人工智能)

资助

Facebook

将数据集添加到GEM的人是谁?

Vipul Raheja(Grammarly)

数据集结构

数据字段
  • gem_id:(字符串):GEM格式化的行ID
  • id:(字符串):原始数据中的行ID
  • user_query:(字符串):来自人类的自然语言天气查询
  • tree_str_mr:(字符串):以树状结构的MR形式合成添加的用户上下文(日期时间和位置)
  • response:(字符串):响应的树形注释。
示例实例
{'gem_id': 'weather-train-11',
'id': '1108963',
 'synthetic_user_context': '[__DG_INFORM__ [__ARG_TASK__ get_forecast ] '
                           '[__ARG_TEMP__ 37 ] [__ARG_TEMP_UNIT__ fahrenheit ] '
                           '[__ARG_CLOUD_COVERAGE__ partly cloudy ] '
                           '[__ARG_DATE_TIME__ [__ARG_COLLOQUIAL__ currently ] '
                           '] [__ARG_LOCATION__ [__ARG_CITY__ Oakland ] '
                           '[__ARG_COUNTRY__ United States ] [__ARG_REGION__ '
                           'California ] ] ] [__DG_INFORM__ [__ARG_TASK__ '
                           'get_forecast ] [__ARG_TEMP_SUMMARY__ mid 40s ] '
                           '[__ARG_DATE_TIME_RANGE__ [__ARG_COLLOQUIAL__ This '
                           'afternoon ] ] [__ARG_LOCATION__ [__ARG_CITY__ '
                           'Oakland ] [__ARG_COUNTRY__ United States ] '
                           '[__ARG_REGION__ California ] ] ] [__DG_INFORM__ '
                           '[__ARG_TASK__ get_forecast ] '
                           '[__ARG_CLOUD_COVERAGE__ mostly sunny ] '
                           '[__ARG_DATE_TIME_RANGE__ [__ARG_COLLOQUIAL__ This '
                           'afternoon ] ] [__ARG_LOCATION__ [__ARG_CITY__ '
                           'Oakland ] [__ARG_COUNTRY__ United States ] '
                           '[__ARG_REGION__ California ] ] ]',
 'tree_str_mr': "[__DG_INFORM__ It's [__ARG_DATE_TIME__ [__ARG_COLLOQUIAL__ "
                'currently ] ] [__ARG_CLOUD_COVERAGE__ partly cloudy ] and '
                '[__ARG_TEMP__ __ARG_TEMP__ ] [__ARG_TEMP_UNIT__ '
                '__ARG_TEMP_UNIT__ ] [__ARG_LOCATION__ in [__ARG_CITY__ '
                '__ARG_CITY__ ] , [__ARG_REGION__ __ARG_REGION__ ] , '
                '[__ARG_COUNTRY__ __ARG_COUNTRY__ ] ] . ] [__DG_INFORM__ '
                '[__ARG_DATE_TIME_RANGE__ [__ARG_COLLOQUIAL__ This afternoon ] '
                "] , it'll be [__ARG_CLOUD_COVERAGE__ mostly sunny ] ] "
                '[__DG_INFORM__ with temperatures in the [__ARG_TEMP_SUMMARY__ '
                'mid <number>  ] ]',
 'user_query': 'Show weather forecast for Oakland, CA. '}
数据分区
  • 标准分区:训练/验证/测试
  • 额外拆分:Disc_Test(测试集的一个更具挑战性的子集,包含话语关系)
分割标准

测试集包含3,121个示例,其中1.1k(35%)的唯一MR从未出现在训练集中。

{'gem_id': 'weather-train-13333', 'data_id': '1260610', 'user_query': 'Sundown', 'tree_str_mr': '[__DG_INFORM__ [__ARG_TASK__ get_weather_attribute ] [__ARG_SUNSET_TIME_DATE_TIME__ [__ARG_TIME__ 05:04 PM ] ] ]', 'response': '[__DG_INFORM__ The sun will go down at [__ARG_SUNSET_TIME_DATE_TIME__ [__ARG_TIME__ __ARG_TIME__ ] ] ]'}

GEM中的数据集

在GEM中包含此数据集的原因

数据集在GEM中的原因是什么?

该数据集是为了开发一个天气机器人,表现出与查询匹配的响应框架或对比相关的数据属性等人类特性而策划的。

数据集提供了丰富的基于树的意义表征,可以对响应进行细粒度控制,例如指定要对比的两个属性。还提供了输入的自然语言查询,以根据输入模型响应的一致性模拟。输出响应使用特殊的括号标记对输入意义部分进行了注释,这使得可以开发新的技术(如约束解码)来提高输出响应的质量。

类似的数据集

评估的模型能力

充分表达对比和证明话语关系,并适当地对参数进行分组;充分泛化到许多参数组合。

GEM专用策划

为GEM修改了吗?

GEM修改

删除了数据点

修改详细信息

GEM版本中纠正了原始版本中的问题。纠正版本已添加到challenge_sets中。

有其他拆分吗?

开始任务

先前的结果

先前的结果

评估的模型能力

充分表达对比和证明话语关系,并适当地对参数进行分组;充分泛化到许多参数组合。

指标

BLEU ,其他:其他指标

其他指标

树准确性:它衡量预测中的树结构与输入MR的树结构是否完全匹配(除了只需要出现一次的重复参数)。

拟议的评估

自动指标在原始模型预测(已去词素化字段)上进行评估:

  • 树准确性:衡量预测中的树结构是否与输入MR的树结构完全匹配。
  • BLEU-4:用于评估NLG系统的词重叠指标。

作者还通过要求注释者评估不同模型产生的回应质量进行了人类评估研究。注释者对以下维度提供了二进制评级:•语法性:衡量回应的流畅性。•正确性:衡量回应的语义正确性。

是否有先前的结果?

数据集策划

原始策划

原始策划理由

数据集是为了开发一个天气机器人,它表现出与查询匹配的响应框架或对比相关的数据属性等人类特性。为实现这一目标,数据集包含丰富的树状结构意义表征,使用多个数据参数和话语行为进行指定,输入自然语言查询以及响应的注释。

交流目标

生成作为输入意义表征中指定的话语结构和数据属性响应的文本。

来自不同来源的数据

语言数据

如何获取语言数据?

众包 机器生成

它是如何在众包平台上获取的?

其他众包平台

主题涵盖范围

该数据集专注于天气领域:天气是最早成功投入生产的NLG案例(Reiter&Dale,1997)。对于NLG来说,这个领域提供了重要的复杂性。特别是天气预报摘要可能非常长,并且需要对几个不相关的信息片段进行推理。

数据验证

由众包工人验证

数据预处理

有关详细信息,请参阅原始论文的附录D。

是否过滤了数据?

混合

过滤准则

有关详细信息,请参阅原始论文的附录C。

结构化注释

是否有其他注释?

没有

注释服务?

同意

任何同意政策?

使用数据的理由

注释是代维服务的工作,不包含PII。

私人识别信息(PII)

是否包含PII?

没有PII

不使用PII的理由

数据是模拟的,与注释者无关。

维护

有维护计划吗?

更广泛的社会背景

对数据集社会影响的先前研究

基于数据的模型的使用

对未受服务社区的影响

是否满足未受服务社区的需求?

偏见讨论

是否有已记录的社会偏见?

不确定

语言生成者是否代表语言?

迄今为止,对该数据的语言规范评估使用了非正式的标准美式英语。这些语法评估的规范可能会以语言传达的方式持续地传递系统性权力失衡。

由于数据只包含非正式的标准美式英语,根据潜在的用例,使用它来训练模型可能不合适。

使用数据时应考虑的因素

PII风险和责任

潜在的PII风险

注释是代维服务的工作,不包含PII。注释数据是模拟且与注释者无关的。

许可协议

已知的技术限制

不适用的应用

使用不完善的模型传达实际天气数据可能会误导用户有关天气状况的信息?