数据集:

GEM/TaTA

计算机处理:

yes

语言创建人:

unknown

批注创建人:

none

源数据集:

original
英文

GEM/TaTA数据集卡片

查看主数据卡片链接

您可以在 GEM Website 上找到主数据卡片。

数据集概述

现有的数据到文本生成数据集大多限于英语。非洲语言(TaTA)中的表格到文本涵盖了这种数据缺乏的问题,并成为首个集中于非洲语言的大规模多语言表格到文本数据集。 TaTA通过转录人口和卫生调查计划的双语报告中的图表和相关文本,并进行专业翻译来创建数据集,使其完全平行。 TaTA包括9个语言的8700个示例,其中包括四种非洲语言(豪萨语,伊博语,斯瓦希里语和约鲁巴语)和一个零射击测试语言(俄语)。

您可以使用以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/TaTA')

数据加载器可以在 here 中找到。

数据集概述

数据和文档的获取方式

网站

Github

下载

Github

论文

ArXiv

作者

Sebastian Gehrmann,Sebastian Ruder,Vitaly Nikolaev,Jan A. Botha,Michael Chavinda,Ankur Parikh,Clara Rivera

数据集概览

语言和预期用途

多语言?

覆盖的语言

英语,葡萄牙语,阿拉伯语,法语,豪萨语,斯瓦希里语(大语言),伊博语,约鲁巴语,俄语

語言屬於誰?

该语言来自人口和卫生调查计划的报告。

许可证

cc-by-sa-4.0:知识共享署名-相同方式共享4.0国际

预期用途

数据集提出了重要的推理挑战,因此旨在评估结构到文本模型的表达和推理能力。

主要任务

数据到文本

交际目标

从表格中总结关键信息,用一句话描述。

信用

数据整理机构类型

工业

数据整理机构

谷歌研究

创建数据集的人员

Sebastian Gehrmann,Sebastian Ruder,Vitaly Nikolaev,Jan A. Botha,Michael Chavinda,Ankur Parikh,Clara Rivera

资金

谷歌研究

谁将数据集添加到GEM中?

Sebastian Gehrmann(谷歌研究)

数据集结构

数据字段
  • example_id :示例的ID。每个ID(例如 AB20-ar-1 )由三个部分组成:文档ID,语言ISO 639-1代码和文档中表格的索引。
  • title :表的标题。
  • unit_of_measure :数据的数量值描述。例如,清洁水源的家庭百分比。
  • chart_type :与数据相关的图表类型。我们考虑以下(归一化)类型:水平条形图,地图图表,饼图,表,线图,饼图,垂直图表类型,线图,垂直条形图和其他类型的图表。
  • was_translated :表是否在报告的原始语言中转录还是翻译的。
  • table_data :表内容是通过JSON编码的二维列表,按行从左到右,从表的顶部开始组织。每个表的项目数会有所不同。空单元格在相应的表单元中表示为空字符串值。
  • table_text :每个表的描述句子被编码为JSON对象。如果有多个句子,则以逗号分隔。每个表格的项目数量会有所不同。
  • linearized_input :包含通过竖线(|)分隔的表格内容的字符串,即包含标题、测量单元和包括括号(即(中等赋权,马里,17.9))的每个单元格的内容的行和列标题之间的内容。
结构原因

结构包括基于信息图表的所有可用信息。

如何选择标签?

注释员查看英文文本,以确定描述信息图表的句子。然后,他们确定了相应的非英文文档的位置。提取所有的句子作为注释。

示例实例
{
    "example_id": "FR346-en-39",
    "title": "Trends in early childhood mortality rates",
    "unit_of_measure": "Deaths per 1,000 live births for the 5-year period before the survey",
    "chart_type": "Line chart",
    "was_translated": "False",
    "table_data": "[[\"\", \"Child mortality\", \"Neonatal mortality\", \"Infant mortality\", \"Under-5 mortality\"], [\"1990 JPFHS\", 5, 21, 34, 39], [\"1997 JPFHS\", 6, 19, 29, 34], [\"2002 JPFHS\", 5, 16, 22, 27], [\"2007 JPFHS\", 2, 14, 19, 21], [\"2009 JPFHS\", 5, 15, 23, 28], [\"2012 JPFHS\", 4, 14, 17, 21], [\"2017-18 JPFHS\", 3, 11, 17, 19]]",
    "table_text": [
      "neonatal, infant, child, and under-5 mortality rates for the 5 years preceding each of seven JPFHS surveys (1990 to 2017-18).",
      "Under-5 mortality declined by half over the period, from 39 to 19 deaths per 1,000 live births.",
      "The decline in mortality was much greater between the 1990 and 2007 surveys than in the most recent period.",
      "Between 2012 and 2017-18, under-5 mortality decreased only modestly, from 21 to 19 deaths per 1,000 live births, and infant mortality remained stable at 17 deaths per 1,000 births."
    ],
    "linearized_input": "Trends in early childhood mortality rates | Deaths per 1,000 live births for the 5-year period before the survey | (Child mortality, 1990 JPFHS, 5) (Neonatal mortality, 1990 JPFHS, 21) (Infant mortality, 1990 JPFHS, 34) (Under-5 mortality, 1990 JPFHS, 39) (Child mortality, 1997 JPFHS, 6) (Neonatal mortality, 1997 JPFHS, 19) (Infant mortality, 1997 JPFHS, 29) (Under-5 mortality, 1997 JPFHS, 34) (Child mortality, 2002 JPFHS, 5) (Neonatal mortality, 2002 JPFHS, 16) (Infant mortality, 2002 JPFHS, 22) (Under-5 mortality, 2002 JPFHS, 27) (Child mortality, 2007 JPFHS, 2) (Neonatal mortality, 2007 JPFHS, 14) (Infant mortality, 2007 JPFHS, 19) (Under-5 mortality, 2007 JPFHS, 21) (Child mortality, 2009 JPFHS, 5) (Neonatal mortality, 2009 JPFHS, 15) (Infant mortality, 2009 JPFHS, 23) (Under-5 mortality, 2009 JPFHS, 28) (Child mortality, 2012 JPFHS, 4) (Neonatal mortality, 2012 JPFHS, 14) (Infant mortality, 2012 JPFHS, 17) (Under-5 mortality, 2012 JPFHS, 21) (Child mortality, 2017-18 JPFHS, 3) (Neonatal mortality, 2017-18 JPFHS, 11) (Infant mortality, 2017-18 JPFHS, 17) (Under-5 mortality, 2017-18 JPFHS, 19)"
  }
数据拆分
  • Train :训练集,包括带有0个或多个参考的示例。
  • Validation :验证集,包括带有3个或多个参考的示例。
  • Test :测试集,包括带有3个或多个参考的示例。
  • Ru :俄语零射击集。包括英语和俄语示例(俄语未包括在其他任何拆分中)。
分割标准

相同的表在不同语言中始终位于相同的拆分中,即如果表格X在语言A的测试拆分中,那么它也将在语言B的测试拆分中。除了过滤掉没有转录表格值的示例外,开发和测试拆分的每个示例都至少有3个参考。 在满足这些标准的示例中,分别对开发和测试采样了100个表格,每个表格有800个示例。手动审查过程排除了每个集合中的一些表格,最终得到了6962个表格的训练集,752个表格的开发集和763个表格的测试集。

一些表格没有参考文献,没有值,其他表格非常大。数据集按原样分发,但论文描述了处理数据问题的多种策略。

在GEM中的数据集

加入GEM的原因

为什么在GEM中有这个数据集?

没有其他多语言数据到文本数据集可以跨语言平行。此外,数据集中超过70%的参考需要推理,因此质量非常高,对模型来说具有挑战性。

类似的数据集

没有

独特的语言覆盖范围

与其他GEM数据集的区别

更多的语言,跨语言平行,以信息图表为基础,不集中于西方实体或来源文件

数据集可以测量的能力

推理,表达,内容规划

GEM特定策划

是否修改了GEM?

没有

是否有额外的拆分?

没有

开始任务

资源指针

paper 的背景部分列出了相关数据集的列表。

技术术语
  • 数据到文本 :该术语指的是输入为结构化信息,输出为自然语言的NLP任务。

以前的结果

以前的结果

指标

其他:其他指标

其他指标

StATA :与TaTA相关的新指标,经过人类评分训练,并且与人类评分具有更高的相关性。

提出的评估方式

创建者使用了人类评估来衡量各种模型的 attribution 和推理能力。基于这些评级,他们训练了一个新的度量标准,并显示现有的度量标准无法衡量属性。

是否有以前的结果?

没有

数据集策划

原始策划

原始策划理由

策划的理由是创建一个高质量且具有挑战性的多语言数据到文本数据集。

交流目标

交流目标是用一句话描述一个表格。

来自不同来源

没有

语言数据

如何获得语言数据?

发现

发现位置是哪里?

单个网站

语言生成者

语言是由美国国际开发署作为人口和卫生调查计划( https://dhsprogram.com/ )的一部分制作的。

主题涵盖

主题与生育率,计划生育,母婴健康,性别和营养有关。

数据验证

由众包工人进行验证

是否进行数据过滤?

没有经过滤

结构化注释

是否有附加注释?

专家创建的

评级者数量

11<n<50

评级者资质

专业注释者,能流利地使用相应的语言

每个训练示例的评级者数量

0

每个测试示例的评级者数量

1

注释服务?

注释服务

其他

注释值

附加注释是用于系统输出和参考文献的,并用于开发此任务的度量标准。

任何质量控制?

由数据策划者进行验证

质量控制细节

评分与小规模(英文)由专家策划的评级进行比较,以确保高度一致。评分还经历了迭代的培训和反馈过程,以确保高质量的判断。

同意

是否有同意政策?

其他同意下游使用

除了数据到文本生成,该数据集还可用于翻译或多模态研究。

个人可识别信息(PII)

包含PII吗?

没有PII

为什么没有PII

DHS计划只发布聚合的调查信息,因此不包含个人信息。

维护

是否有维护计划?

没有

更广泛的社会背景

关于数据集社会影响的以前工作

基于数据的模型的使用情况

没有

对弱势群体影响的讨论

是否满足了弱势群体的需求?

有关数据集如何满足需求的详细信息

该数据集专注于非洲国家的数据,数据集中包含的语言在非洲使用。它旨在提高自然语言处理和自然语言生成社区对非洲语言的代表性。

偏见讨论

有文档化的社会偏见吗?

没有

语言生成者是否代表了该语言?

此数据集的语言生成者是DHS计划雇用的人员,该计划是一个由美国资助的计划。虽然数据集着重于非洲国家,但数据呈现方式可能存在隐含的西方偏见。

使用数据的考虑因素

PII风险和责任

许可证

数据集的版权限制

开放许可证-允许商业使用

语言数据的版权限制

开放许可证-允许商业使用

已知的技术限制

技术限制

尽管表是在可用语言中进行了转录,但大多数表格都是以英语为首语言发布的。使用了专业翻译家翻译数据,这使得在数据中存在一些翻译语。此外,无法避免收集到仅部分包含在源表中的参考句子。

不适合的应用程序

健康报告的领域涉及有关生殖、暴力、疾病和死亡的潜在敏感主题。感知的负面价值观可能会被用于放大关于来自相应地区或国家的人民的刻板印象。该数据集的预期学术用途是开发和评估中性报告这些表格内容的模型,但禁止使用输出进行价值判断,因此不建议这些应用程序。