数据集:
GEM/TaTA
您可以在 GEM Website 上找到主数据卡片。
现有的数据到文本生成数据集大多限于英语。非洲语言(TaTA)中的表格到文本涵盖了这种数据缺乏的问题,并成为首个集中于非洲语言的大规模多语言表格到文本数据集。 TaTA通过转录人口和卫生调查计划的双语报告中的图表和相关文本,并进行专业翻译来创建数据集,使其完全平行。 TaTA包括9个语言的8700个示例,其中包括四种非洲语言(豪萨语,伊博语,斯瓦希里语和约鲁巴语)和一个零射击测试语言(俄语)。
您可以使用以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/TaTA')
数据加载器可以在 here 中找到。
Sebastian Gehrmann,Sebastian Ruder,Vitaly Nikolaev,Jan A. Botha,Michael Chavinda,Ankur Parikh,Clara Rivera
是
覆盖的语言英语,葡萄牙语,阿拉伯语,法语,豪萨语,斯瓦希里语(大语言),伊博语,约鲁巴语,俄语
語言屬於誰?该语言来自人口和卫生调查计划的报告。
许可证cc-by-sa-4.0:知识共享署名-相同方式共享4.0国际
预期用途数据集提出了重要的推理挑战,因此旨在评估结构到文本模型的表达和推理能力。
主要任务数据到文本
交际目标从表格中总结关键信息,用一句话描述。
工业
数据整理机构谷歌研究
创建数据集的人员Sebastian Gehrmann,Sebastian Ruder,Vitaly Nikolaev,Jan A. Botha,Michael Chavinda,Ankur Parikh,Clara Rivera
资金谷歌研究
谁将数据集添加到GEM中?Sebastian Gehrmann(谷歌研究)
结构包括基于信息图表的所有可用信息。
如何选择标签?注释员查看英文文本,以确定描述信息图表的句子。然后,他们确定了相应的非英文文档的位置。提取所有的句子作为注释。
示例实例{ "example_id": "FR346-en-39", "title": "Trends in early childhood mortality rates", "unit_of_measure": "Deaths per 1,000 live births for the 5-year period before the survey", "chart_type": "Line chart", "was_translated": "False", "table_data": "[[\"\", \"Child mortality\", \"Neonatal mortality\", \"Infant mortality\", \"Under-5 mortality\"], [\"1990 JPFHS\", 5, 21, 34, 39], [\"1997 JPFHS\", 6, 19, 29, 34], [\"2002 JPFHS\", 5, 16, 22, 27], [\"2007 JPFHS\", 2, 14, 19, 21], [\"2009 JPFHS\", 5, 15, 23, 28], [\"2012 JPFHS\", 4, 14, 17, 21], [\"2017-18 JPFHS\", 3, 11, 17, 19]]", "table_text": [ "neonatal, infant, child, and under-5 mortality rates for the 5 years preceding each of seven JPFHS surveys (1990 to 2017-18).", "Under-5 mortality declined by half over the period, from 39 to 19 deaths per 1,000 live births.", "The decline in mortality was much greater between the 1990 and 2007 surveys than in the most recent period.", "Between 2012 and 2017-18, under-5 mortality decreased only modestly, from 21 to 19 deaths per 1,000 live births, and infant mortality remained stable at 17 deaths per 1,000 births." ], "linearized_input": "Trends in early childhood mortality rates | Deaths per 1,000 live births for the 5-year period before the survey | (Child mortality, 1990 JPFHS, 5) (Neonatal mortality, 1990 JPFHS, 21) (Infant mortality, 1990 JPFHS, 34) (Under-5 mortality, 1990 JPFHS, 39) (Child mortality, 1997 JPFHS, 6) (Neonatal mortality, 1997 JPFHS, 19) (Infant mortality, 1997 JPFHS, 29) (Under-5 mortality, 1997 JPFHS, 34) (Child mortality, 2002 JPFHS, 5) (Neonatal mortality, 2002 JPFHS, 16) (Infant mortality, 2002 JPFHS, 22) (Under-5 mortality, 2002 JPFHS, 27) (Child mortality, 2007 JPFHS, 2) (Neonatal mortality, 2007 JPFHS, 14) (Infant mortality, 2007 JPFHS, 19) (Under-5 mortality, 2007 JPFHS, 21) (Child mortality, 2009 JPFHS, 5) (Neonatal mortality, 2009 JPFHS, 15) (Infant mortality, 2009 JPFHS, 23) (Under-5 mortality, 2009 JPFHS, 28) (Child mortality, 2012 JPFHS, 4) (Neonatal mortality, 2012 JPFHS, 14) (Infant mortality, 2012 JPFHS, 17) (Under-5 mortality, 2012 JPFHS, 21) (Child mortality, 2017-18 JPFHS, 3) (Neonatal mortality, 2017-18 JPFHS, 11) (Infant mortality, 2017-18 JPFHS, 17) (Under-5 mortality, 2017-18 JPFHS, 19)" }数据拆分
相同的表在不同语言中始终位于相同的拆分中,即如果表格X在语言A的测试拆分中,那么它也将在语言B的测试拆分中。除了过滤掉没有转录表格值的示例外,开发和测试拆分的每个示例都至少有3个参考。 在满足这些标准的示例中,分别对开发和测试采样了100个表格,每个表格有800个示例。手动审查过程排除了每个集合中的一些表格,最终得到了6962个表格的训练集,752个表格的开发集和763个表格的测试集。
一些表格没有参考文献,没有值,其他表格非常大。数据集按原样分发,但论文描述了处理数据问题的多种策略。
没有其他多语言数据到文本数据集可以跨语言平行。此外,数据集中超过70%的参考需要推理,因此质量非常高,对模型来说具有挑战性。
类似的数据集没有
独特的语言覆盖范围是
与其他GEM数据集的区别更多的语言,跨语言平行,以信息图表为基础,不集中于西方实体或来源文件
数据集可以测量的能力推理,表达,内容规划
没有
是否有额外的拆分?没有
paper 的背景部分列出了相关数据集的列表。
技术术语其他:其他指标
其他指标StATA :与TaTA相关的新指标,经过人类评分训练,并且与人类评分具有更高的相关性。
提出的评估方式创建者使用了人类评估来衡量各种模型的 attribution 和推理能力。基于这些评级,他们训练了一个新的度量标准,并显示现有的度量标准无法衡量属性。
是否有以前的结果?没有
策划的理由是创建一个高质量且具有挑战性的多语言数据到文本数据集。
交流目标交流目标是用一句话描述一个表格。
来自不同来源没有
发现
发现位置是哪里?单个网站
语言生成者语言是由美国国际开发署作为人口和卫生调查计划( https://dhsprogram.com/ )的一部分制作的。
主题涵盖主题与生育率,计划生育,母婴健康,性别和营养有关。
数据验证由众包工人进行验证
是否进行数据过滤?没有经过滤
专家创建的
评级者数量11<n<50
评级者资质专业注释者,能流利地使用相应的语言
每个训练示例的评级者数量0
每个测试示例的评级者数量1
注释服务?是
注释服务其他
注释值附加注释是用于系统输出和参考文献的,并用于开发此任务的度量标准。
任何质量控制?由数据策划者进行验证
质量控制细节评分与小规模(英文)由专家策划的评级进行比较,以确保高度一致。评分还经历了迭代的培训和反馈过程,以确保高质量的判断。
是
其他同意下游使用除了数据到文本生成,该数据集还可用于翻译或多模态研究。
没有PII
为什么没有PIIDHS计划只发布聚合的调查信息,因此不包含个人信息。
没有
没有
是
有关数据集如何满足需求的详细信息该数据集专注于非洲国家的数据,数据集中包含的语言在非洲使用。它旨在提高自然语言处理和自然语言生成社区对非洲语言的代表性。
没有
语言生成者是否代表了该语言?此数据集的语言生成者是DHS计划雇用的人员,该计划是一个由美国资助的计划。虽然数据集着重于非洲国家,但数据呈现方式可能存在隐含的西方偏见。
开放许可证-允许商业使用
语言数据的版权限制开放许可证-允许商业使用
尽管表是在可用语言中进行了转录,但大多数表格都是以英语为首语言发布的。使用了专业翻译家翻译数据,这使得在数据中存在一些翻译语。此外,无法避免收集到仅部分包含在源表中的参考句子。
不适合的应用程序健康报告的领域涉及有关生殖、暴力、疾病和死亡的潜在敏感主题。感知的负面价值观可能会被用于放大关于来自相应地区或国家的人民的刻板印象。该数据集的预期学术用途是开发和评估中性报告这些表格内容的模型,但禁止使用输出进行价值判断,因此不建议这些应用程序。