数据集:
GEM/conversational_weather
任务:
表格到文本语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
none源数据集:
original其他:
data-to-text许可:
cc-by-nc-4.0您可以在 GEM Website 找到主要数据卡片。
此数据集的目的是评估模型在非常低的数据环境中学习模板样式结构的效果。任务是对与天气相关的查询生成回应。回应通过输入中的数据属性和话语结构进一步说明。输出包含词汇化的文本和用于属性的话语标记(例如,_ARG_TEMP_ 34)。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/conversational_weather')
数据加载器可以在 here 找到。
paper authors阿努莎·巴拉克里希南(Anusha Balakrishnan),金凤·劳(Jinfeng Rao),卡蒂凯亚·乌帕萨尼(Kartikeya Upasani),迈克尔·怀特(Michael White),拉杰·苏巴(Rajen Subba)(Facebook对话人工智能)
@inproceedings{balakrishnan-etal-2019-constrained, title = "Constrained Decoding for Neural {NLG} from Compositional Representations in Task-Oriented Dialogue", author = "Balakrishnan, Anusha and Rao, Jinfeng and Upasani, Kartikeya and White, Michael and Subba, Rajen", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P19-1080", doi = "10.18653/v1/P19-1080", pages = "831--844" }联系人姓名
卡蒂凯亚·乌帕萨尼
联系人邮箱kart@fb.com
有排行榜吗?否
否
支持的语言英语
许可协议cc-by-nc-4.0:署名-非商业性使用-相同方式共享 4.0 国际
预期用途该数据集旨在帮助开发表现出人类特性的对话代理,例如与查询匹配的回应框架或对比相关的数据属性。
主要任务数据到文本
交流目标生成作为输入意义表征中指定的话语结构和数据属性响应的文本。
工业
策划组织阿努莎·巴拉克里希南(Anusha Balakrishnan),金凤·劳(Jinfeng Rao),卡蒂凯亚·乌帕萨尼(Kartikeya Upasani),迈克尔·怀特(Michael White),拉杰·苏巴(Rajen Subba)(Facebook对话人工智能)
资助Vipul Raheja(Grammarly)
{'gem_id': 'weather-train-11', 'id': '1108963', 'synthetic_user_context': '[__DG_INFORM__ [__ARG_TASK__ get_forecast ] ' '[__ARG_TEMP__ 37 ] [__ARG_TEMP_UNIT__ fahrenheit ] ' '[__ARG_CLOUD_COVERAGE__ partly cloudy ] ' '[__ARG_DATE_TIME__ [__ARG_COLLOQUIAL__ currently ] ' '] [__ARG_LOCATION__ [__ARG_CITY__ Oakland ] ' '[__ARG_COUNTRY__ United States ] [__ARG_REGION__ ' 'California ] ] ] [__DG_INFORM__ [__ARG_TASK__ ' 'get_forecast ] [__ARG_TEMP_SUMMARY__ mid 40s ] ' '[__ARG_DATE_TIME_RANGE__ [__ARG_COLLOQUIAL__ This ' 'afternoon ] ] [__ARG_LOCATION__ [__ARG_CITY__ ' 'Oakland ] [__ARG_COUNTRY__ United States ] ' '[__ARG_REGION__ California ] ] ] [__DG_INFORM__ ' '[__ARG_TASK__ get_forecast ] ' '[__ARG_CLOUD_COVERAGE__ mostly sunny ] ' '[__ARG_DATE_TIME_RANGE__ [__ARG_COLLOQUIAL__ This ' 'afternoon ] ] [__ARG_LOCATION__ [__ARG_CITY__ ' 'Oakland ] [__ARG_COUNTRY__ United States ] ' '[__ARG_REGION__ California ] ] ]', 'tree_str_mr': "[__DG_INFORM__ It's [__ARG_DATE_TIME__ [__ARG_COLLOQUIAL__ " 'currently ] ] [__ARG_CLOUD_COVERAGE__ partly cloudy ] and ' '[__ARG_TEMP__ __ARG_TEMP__ ] [__ARG_TEMP_UNIT__ ' '__ARG_TEMP_UNIT__ ] [__ARG_LOCATION__ in [__ARG_CITY__ ' '__ARG_CITY__ ] , [__ARG_REGION__ __ARG_REGION__ ] , ' '[__ARG_COUNTRY__ __ARG_COUNTRY__ ] ] . ] [__DG_INFORM__ ' '[__ARG_DATE_TIME_RANGE__ [__ARG_COLLOQUIAL__ This afternoon ] ' "] , it'll be [__ARG_CLOUD_COVERAGE__ mostly sunny ] ] " '[__DG_INFORM__ with temperatures in the [__ARG_TEMP_SUMMARY__ ' 'mid <number> ] ]', 'user_query': 'Show weather forecast for Oakland, CA. '}数据分区
测试集包含3,121个示例,其中1.1k(35%)的唯一MR从未出现在训练集中。
{'gem_id': 'weather-train-13333', 'data_id': '1260610', 'user_query': 'Sundown', 'tree_str_mr': '[__DG_INFORM__ [__ARG_TASK__ get_weather_attribute ] [__ARG_SUNSET_TIME_DATE_TIME__ [__ARG_TIME__ 05:04 PM ] ] ]', 'response': '[__DG_INFORM__ The sun will go down at [__ARG_SUNSET_TIME_DATE_TIME__ [__ARG_TIME__ __ARG_TIME__ ] ] ]'}
该数据集是为了开发一个天气机器人,表现出与查询匹配的响应框架或对比相关的数据属性等人类特性而策划的。
数据集提供了丰富的基于树的意义表征,可以对响应进行细粒度控制,例如指定要对比的两个属性。还提供了输入的自然语言查询,以根据输入模型响应的一致性模拟。输出响应使用特殊的括号标记对输入意义部分进行了注释,这使得可以开发新的技术(如约束解码)来提高输出响应的质量。
类似的数据集否
评估的模型能力充分表达对比和证明话语关系,并适当地对参数进行分组;充分泛化到许多参数组合。
是
GEM修改删除了数据点
修改详细信息GEM版本中纠正了原始版本中的问题。纠正版本已添加到challenge_sets中。
有其他拆分吗?否
充分表达对比和证明话语关系,并适当地对参数进行分组;充分泛化到许多参数组合。
指标BLEU ,其他:其他指标
其他指标树准确性:它衡量预测中的树结构与输入MR的树结构是否完全匹配(除了只需要出现一次的重复参数)。
拟议的评估自动指标在原始模型预测(已去词素化字段)上进行评估:
作者还通过要求注释者评估不同模型产生的回应质量进行了人类评估研究。注释者对以下维度提供了二进制评级:•语法性:衡量回应的流畅性。•正确性:衡量回应的语义正确性。
是否有先前的结果?否
数据集是为了开发一个天气机器人,它表现出与查询匹配的响应框架或对比相关的数据属性等人类特性。为实现这一目标,数据集包含丰富的树状结构意义表征,使用多个数据参数和话语行为进行指定,输入自然语言查询以及响应的注释。
交流目标生成作为输入意义表征中指定的话语结构和数据属性响应的文本。
来自不同来源的数据否
众包 机器生成
它是如何在众包平台上获取的?其他众包平台
主题涵盖范围该数据集专注于天气领域:天气是最早成功投入生产的NLG案例(Reiter&Dale,1997)。对于NLG来说,这个领域提供了重要的复杂性。特别是天气预报摘要可能非常长,并且需要对几个不相关的信息片段进行推理。
数据验证由众包工人验证
数据预处理有关详细信息,请参阅原始论文的附录D。
是否过滤了数据?混合
过滤准则有关详细信息,请参阅原始论文的附录C。
没有
注释服务?否
否
使用数据的理由注释是代维服务的工作,不包含PII。
没有PII
不使用PII的理由数据是模拟的,与注释者无关。
否
否
否
不确定
语言生成者是否代表语言?迄今为止,对该数据的语言规范评估使用了非正式的标准美式英语。这些语法评估的规范可能会以语言传达的方式持续地传递系统性权力失衡。
由于数据只包含非正式的标准美式英语,根据潜在的用例,使用它来训练模型可能不合适。
注释是代维服务的工作,不包含PII。注释数据是模拟且与注释者无关的。
使用不完善的模型传达实际天气数据可能会误导用户有关天气状况的信息?