数据集:

GEM/totto

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original
英文

GEM/totto的数据集卡

主数据卡链接

您可以在 GEM Website 找到主数据卡。

数据集摘要

ToTTo是一个高质量的英语表格到文本数据集,其中包含100,000多个示例,其中包含了一张来自维基百科的带有突出显示单元格的表格,以及描述突出显示的单元格的句子。数据集中的所有示例都经过多次后期编辑,以确保目标与输入信息完全一致。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/totto')

数据加载器可在 here 中找到。

网站

n/a

论文

ACL Anthology

作者

Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das

数据集概述

数据和其文档的获取位置

下载

ToTTo Main Repo + ToTTo Supplementary Repo

论文

ACL Anthology

BibTex
@inproceedings{parikh-etal-2020-totto,
    title = "{ToTTo}: A Controlled Table-To-Text Generation Dataset",
    author = "Parikh, Ankur  and
      Wang, Xuezhi  and
      Gehrmann, Sebastian  and
      Faruqui, Manaal  and
      Dhingra, Bhuwan  and
      Yang, Diyi  and
      Das, Dipanjan",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.89",
    doi = "10.18653/v1/2020.emnlp-main.89",
    pages = "1173--1186",
    abstract = "We present ToTTo, an open-domain English table-to-text dataset with over 120,000 training examples that proposes a controlled generation task: given a Wikipedia table and a set of highlighted table cells, produce a one-sentence description. To obtain generated targets that are natural but also faithful to the source table, we introduce a dataset construction process where annotators directly revise existing candidate sentences from Wikipedia. We present systematic analyses of our dataset and annotation process as well as results achieved by several state-of-the-art baselines. While usually fluent, existing methods often hallucinate phrases that are not supported by the table, suggesting that this dataset can serve as a useful research benchmark for high-precision conditional text generation.",
}
联系人姓名

Ankur Parikh

联系人电子邮件

totto@google.com

是否有排行榜?

排行榜链接

Github

排行榜详细信息

此数据集由作者维护的相关且活跃的 leaderboard 。测试集的真实目标/参考资料是私有的,即它们没有公开共享或可下载 - 因此,需要提交到排行榜进行测试集评估。要在开发集或测试集上评估模型和/或提交到排行榜,需要通过此 form 提交模型文件(该表单提供了取消加入排行榜的选项)。

排行榜报告了每个提交的BLEU、PARENT和BLEURT分数的三个集合 - 在整体测试集上,“重叠”子测试集和“非重叠”子测试集。

语言和预期使用

多语言?

涵盖的方言

没有特定的方言。原始语言来自维基百科,由众包评级者进行后编辑

涵盖的语言

英语

语言的来源

该语言只是经过后编辑的英语(BCP-47:en)维基百科文本。未提供有关注释者的人口信息。可能会出现某些非英语文本,包括法语重音或西里尔字符之类的字符,特别是在以实体名称作为输入表格单元中的值的字段中。

许可证

cc-by-sa-3.0:知识共享署名相同方式共享3.0国际

预期使用

ToTTo是一项数据到文本生成(NLG)任务,正如论文标题所说。任务如下:给定一张带有行名、列名和表格单元的维基百科表格,并突出显示一部分单元格,为表格的突出部分生成自然语言描述。表格不需要完全规则,即单元格有时可以跨多行或多列。

早期的表到文本NLG任务的一个示例是 Wikibio - 在此输入是维基百科信息框(来自实体相关Wiki页面的右上角)。相比之下,ToTTo主要是来自文章正文的维基百科表格。总的来说,表到文本NLG任务可以看作是数据到文本NLG任务的子类 - 任务是生成结构化或半结构化数据形式的输入的自然语言描述。总的来说,所有的数据到文本NLG任务都不一定有一个明确的表格或其他结构 - 例如, WebNLG 中的输入只是三元组列表。

重要的是,ToTTo与以前的表到文本NLG示例不同之处在于:

  • 它没有遭受描述分歧问题 - 其中实际描述自身包含了表中没有的额外信息。ToTTo通过具有多步注释过程来编辑初始的、自由形式的表描述(来自维基百科),使它们忠实、无歧义,并且不依赖于文章上下文。
  • 由于它以突出显示的表格单元格形式提供“控制”,它避免了存在大量不同部分表格的有效描述的问题。
  • 主要任务

    数据到文本

    交际目标

    发言人需要产生一个描述给定表格中突出显示的单元格的单一连贯英语句子,同时使用来自表格的元数据和其他适用信息。

    信誉

    策展组织类型

    产业

    策展组织

    谷歌研究

    数据集创建者

    Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das

    资金

    谷歌研究

    谁将数据集添加到GEM?

    初始数据卡由Varun Gangal创建,数据加载器由Yacine Jernite编写。Simon Mille通过GEM v2版本更新了数据卡和加载器,并通过新增字段对其进行了扩展。

    数据集结构

    数据字段
    • table字段是按行主顺序的List[List[Dict]]形式,外层列表表示行,内层列表表示列。
    • 每个Dict包含column_span: int、is_header: bool、row_span: int和value: str字段。
    • 表元数据包括table_page_title、table_section_title和table_section_texts
    • highlighted_cells表示为List[[row_index,column_index]],其中每个[row_index,column_index]表示table[row_index][column_index]突出显示。
    • example_id是每个示例的唯一标识符。
    • sentence_annotations[final_sentence]是表格描述/生成目标
    结构原因

    结构旨在以一种编码突出显示的表格的方式,使行和列可以跨多个宽度字段。其他字段是关于源和注释的元数据。

    标签是如何选择的?

    初始的表-描述对是从维基百科文章中提取的,通过启发式方法(例如数字匹配,至少包含3个非零数字的非日期数字的表格和句子)(有关更多信息,请参见论文的第4节)

  • 表的可读性:被视为不可读的表(由于外语、格式差等原因,占总比例的非常小的一部分,约为0.5%)被从数据集中删除。
  • 单元格突出显示:注释者突出显示支持描述的表格单元格。
  • 删除:注释者删除描述中不受突出显示的单元格支持的短语。
  • 去上下文化:描述可能包含代词或其他形式的回指,或者依赖于整体文章主题的其他现象 - 这些可以通过替换(例如,将代词替换为实体,前提是它出现在表格中)来修复。允许的替换数量有限,并且还要求注释者保持流畅度。
  • 第二次注释:第二组注释者会看到第4步的输出,并根据需要对其进行修复,以确保其语法正确。
  • 示例实例

    主存储库的 README.md 已经提供了对数据实例和字段的详尽说明 here

    下面是来自音乐艺术家 Weird Al' Yankovic 维基页面的一个表格示例,可能列出了他的电视出演。

        {
          "table_page_title": "'Weird Al' Yankovic",
          "table_webpage_url": "https://en.wikipedia.org/wiki/%22Weird_Al%22_Yankovic",
          "table_section_title": "Television",
          "table_section_text": "",
          "table": "[Described below]",
          "highlighted_cells": [[22, 2], [22, 3], [22, 0], [22, 1], [23, 3], [23, 1], [23, 0]],
          "example_id": 12345678912345678912,
          "sentence_annotations": [{"original_sentence": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Mr. Peanutbutter's brother, Captain Peanutbutter, and was hired to voice the lead role in the 2016 Disney XD series Milo Murphy's Law.",
                  "sentence_after_deletion": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Captain Peanutbutter, and was hired to the lead role in the 2016 series Milo Murphy's Law.",
                  "sentence_after_ambiguity": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Captain Peanutbutter, and was hired for the lead role in the 2016 series Milo Murphy's 'Law.",
                  "final_sentence": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Captain Peanutbutter and was hired for the lead role in the 2016 series Milo Murphy's Law."}],
        }
    

    表字段展开如下:

        [
         [
            {
                "column_span": 1,
                 "is_header": true,
                 "row_span": 1,
                 "value": "Year"},
            {    "column_span": 1,
                 "is_header": true,
                 "row_span": 1,
                 "value": "Title"},
            {    "column_span": 1,
                 "is_header": true,
                 "row_span": 1,
                 "value": "Role"},
            {    "column_span": 1,
                 "is_header": true,
                 "row_span": 1,
                 "value": "Notes"}
          ],
          [
            {    "column_span": 1,
                 "is_header": false,
                 "row_span": 1,
                 "value": "1997"},
            {    "column_span": 1,
                 "is_header": false,
                 "row_span": 1,
                 "value": "Eek! The Cat"},
            {    "column_span": 1,
                 "is_header": false,
                 "row_span": 1,
                 "value": "Himself"},
            {    "column_span": 1,
                 "is_header": false,
                 "row_span": 1,
                 "value": "Episode: 'The FugEektive'"}
          ], ...
        ]
    

    在其 here 文件夹下,还提供了可浏览的样本。还提供了具有其输出的HTML可视化脚本,位于前述文件夹中。有关访问和可视化这些样本的说明也可以在 here 中找到。

    数据拆分

    该数据集包含120,000个训练示例以及大小相等的开发和测试集,共有7700个示例。有关表尺寸、目标词汇等的更详细列表,请参见论文中的表5和其聚合物。

    拆分标准

    开发和测试拆分进一步等分为 “Overlap” 和 “non-Overlap” 。由于 “Overlap” 集具有培训过程中的标题(行和列)名称与之前所见的没有任何共同点,因此这些示例更加困难。

    有一些非常大的表在数据集中,有数千行。表7展示了数据集的一些挑战,表明只有很少的示例需要访问表的描述本身,这使得这些示例成为异常值。

    GEM中的数据集

    加入GEM的原因

    为何将数据集包含在GEM中?

    ToTTo是GEM中代表表到文本NLG的两个数据集之一,另一个是 DART 。与DART将多个来源的数据集合并并以统一的环境提供不同,ToTTo来自同质化来源。如上述任务摘要中所解释的,它还具有专门设计的注释过程,旨在减少不同的描述,而这在DART中是不存在的。

    此外,ToTTo还是受控生成任务的一个实例 - 在此除了输入(在本例中为表格)以外,还提供了额外的控件(在本例中为突出显示的单元格),作为生成的附加目标。DART任务表述中不包括控件。

    类似的数据集

    独特的语言覆盖

    不是

    与其他GEM数据集的区别

    输入比较复杂,质量比相似的数据集更好。突出显示的表格单元格为模型提供了独特的挑战。

    数据集测量的能力

    推理,表面生成

    GEM特定的策展

    是否为GEM修改?

    是否有其他拆分?

    拆分信息

    为GEM评估套件添加了9个ToTTo的挑战集,其中8个专门针对该任务进行了创建,1个来自原始数据。

  • 我们对选择的500个随机选择的输入的训练和开发集创建了子集。
  • 我们对选择的500个随机选择的测试实例之一应用输入混淆;突出显示的单元格的顺序被随机重新分配。
  • 对于输入大小,我们根据整个表格中突出显示的单元格数创建了子群体。
  • Input length Frequency English
    1 898
    2 1850
    3 2221
    4 1369
    5 483
    6 379
    7 124
    8 128
    9 61
    10 40
    11 20
    12 26
    13 10
    14 14
    15 14
    16 7
    17 6
    18 5
    19 5
    20 5
    21 4
    22 1
    23 2
    24 4
    25 1
    26...496 1
  • 我们还根据整个表格的大小对测试集进行了划分,根据的原则是较大的表格代表生成突出单元格时需要考虑的更大空间;相比较而言,较大的表比较小的表格更具挑战性,在生成准确文本方面更为困难。有693种不同的表格尺寸,其中单元格范围从2到15834个。
  • Table size Frequency English
    2 71
    3 52
    4 36
    5 41
    6 144
    7 47
    8 59
    9 105
    10 162
    11 36
    12 158
    13 35
    14 79
    15 136
    16 111
    17 48
    18 123
    19 29
    20 112
    21 91
    22 17
    23 7
    24 169
    25 56
    26 12
    27 40
    28 77
    29 7
    30 122
    31 4
    32 49
    33 21
    34 7
    35 103
    36 131
    37 10
    38 6
    39 26
    40 110
    41 1
    42 54
    43 6
    44 47
    45 79
    46 4
    47 2
    48 114
    49 18
    50 55
    51 11
    52 43
    54 80
    55 73
    56 64
    57 12
    58 1
    60 114
    61 4
    63 39
    64 36
    65 62
    66 48
    67 1
    68 36
    69 6
    70 81
    72 76
    73 1
    74 1
    75 44
    76 33
    77 30
    78 66
    79 1
    80 83
    81 12
    82 1
    84 80
    85 25
    86 1
    87 3
    88 35
    90 78
    91 18
    92 22
    93 5
    94 2
    95 31
    96 50
    98 11
    99 14
    100 48
    102 24
    104 29
    105 36
    106 2
    108 51
    110 31
    ...8000+ (up to 10)
  • 我们还根据关于人物页面中的测试示例子集创建了三个拆分。然后,我们使用WikiData中的结构化信息识别以下信息:
    • 性别(男性和女性)
    • 按大陆分组的国籍(非洲、亚洲、欧洲、北美洲、大洋洲和南美洲)
    • 民族(美国非洲裔和全部美国)

    性别、民族和国籍中的类别是基于数据可用性选择的;ToTTo数据集主要包含不以人为中心的表,因此测试集中只有7个人被标记为具有非二进制性别。类似的稀疏性决定了按大陆分组的国籍 - 在测试集中,只有19个国家被超过10人代表。对于有多个大陆公民身份的人,我们可以将其包括在任何所选大陆中。

    最后,种族在WikiData中的注释非常稀疏;在ToTTo的150个测试示例中,只有128个是非洲裔美国人。因此,我们无法比较例如约鲁巴语或旁遮普语的人的表现,这两者都有少于五个实例。这里的另一个警告是,其中只有21个人是女性。因此,我们将非洲裔美国人群体与包括所有美国公民的子集的结果进行比较。

    拆分动机

    概括性,公平性,鲁棒性

    入门任务

    资源指针
    • 特定模型使用的 metric

      没有

      以前的结果可用吗?

      相关的以前结果

      请参阅排行榜。

      数据集策展

      原始策划

      原始策划理由

      选择维基百科文章中出现的表作为数据源的原因如下:

    • 在词汇和概念方面具有广泛的覆盖范围。
    • 维基百科的表格不限于规则结构,多行或多列的单元格以足够频率出现。
    • 可能包含在与表格附近的合理质量、自然文本描述中可以通过启发式方法提取的内容(请参见第4节的启发式方法)。
    • 为了避免与早期的 Wikibio 数据集重叠,该数据集专注于来自维基百科人物传记文章的信息框-第一句子对。

      最初的完全建构过程将自由文本结合起来并进行注释,旨在充分发挥自由形式文本描述(流畅、高质量且写作不受时间限制,但不同和不忠实)和注释描述(可以定制成忠实于所需任务要求的描述)的优点。

      交流目标

      发言者被要求产生一个描述给定表格中突出显示的单元格的单一连贯英语句子,同时使用元数据和表格中的其他信息。

      不同的来源

      来源详细信息

      wikipedia.org

      语言数据

      如何获取语言数据?

      众包

      众包在哪里进行?

      其他众工平台

      语言生产者

      基本的源语言生产者是维基百科的作者和/或编辑,因为注释从维基百科表格附近的自然文本描述开始。辅助的源语言生产者是注释者(每个示例有两个),他们反复修订这些描述,使其具有一组突出显示的表格单元格。

      数据验证

      通过众包工人验证

      数据预处理

      初始的表-描述对是从维基百科文章中提取的,通过启发式方法(例如数字匹配,至少包含3个非零数字的非日期数字的表格和句子)(有关更多信息,请参见论文的第4节)

    • 表的可读性:被视为不可读的表(由于外语、格式差等原因,占总比例的非常小的一部分,约为0.5%)被从数据集中删除。
    • 单元格突出显示:注释者突出显示支持描述的表格单元格。
    • 删除:注释者删除描述中不受突出显示的单元格支持的短语。
    • 去上下文化:描述可能包含代词或其他形式的回指,或者依赖于整体文章主题的其他现象 - 这些可以通过替换(例如,将代词替换为实体,前提是它出现在表格中)来修复。允许的替换数量有限,并且还要求注释者保持流畅度。
    • 第二次注释:第二组注释者会看到第4步的输出,并根据需要对其进行修复,以确保其语法正确。
    • 该论文没有具体描述注释平台或注释者的位置配置。

      是否已筛选数据?

      通过算法筛选

      筛选标准

      在构建拆分之后,数据策展人筛选了具有罕见表头组合(≤5个示例)且与验证或测试拆分重叠的训练示例。

      结构化注释

      是否有其他注释?

      注释服务?

      没有

      同意

      是否有同意政策?

      同意政策详情

      注释者是知道项目目标并同意将数据作为数据集的一部分发布的全职员工。

      私人身份信息(PII)

      包含PII吗?

      不包含PII

      为什么没有PII

      因为来源数据来自维基百科,所以数据集中只包含公共领域中的数据。

      维护

      是否有维护计划?

      维护计划详情

      对于提交内容,可以通过从用于提交的电子邮件账户发送电子邮件至 totto@google.com 来请求删除您的数据。删除请求将在60天内得到回复。

      维护人员联系信息

      Ankur Parikh( aparikh@google.com )

      是否有争议机制?

      提交表单

      争议表单链接

      totto@google.com

      更广泛的社会背景

      对数据集社会影响的先前研究

      基于数据的模型的使用

      对弱势社群的影响

      是否满足弱势社群的需求?

      偏见讨论

      是否有记录的社会偏见?

      分析工作的链接和摘要

      原始工作以及我们的GEM论文分析了一些偏见

      语言生产者是否代表了该语言?

      此数据集使用表格,并且表格单元格的内容可能自然显示出在维基百科中存在的偏见,例如某些形式的性别偏见(例如 (Graells-Garido et al.,2015) 指出,结婚信息更可能是有关女性而不是男性)。

      如前所述,表述(目标/参考)使用了两步注释过程。

    • 采用表格附近的自然文本描述作为起点。这是截止到某一时刻由维基百科作者的协作编辑链创建的维基百科文章文本。
    • 初始描述通过两个或更多注释修订的链条进行修订,使其具有一组突出显示的表格单元格的特征。
    • 从其来源1)中,描述可能出现维基百科文本中的偏见。从2)中的修订开始,描述可能显示出源自注释者撰写的文本的偏见,例如对于较短描述的偏好,因为编写速度更快,或受到支配注释者分布的语言偏好的影响。 (但是,注意这些可能大大减少,因为这里的注释者仅仅是在修订而不是在完全撰写。此外,每个句子都经过至少两个注释者,这起到了防止个别注释者个人偏见的作用。)

      自然现象也会导致在报道偏见 (Gordon and Van Durme, 2013) 方面存在其他偏见 - 通过从维基百科中产生的数据同样适用于该数据集。

      使用数据的考虑事项

      PII风险和责任

      潜在的PII风险

      因为来源数据来自维基百科,所以数据集只包含公共领域中的数据。

      许可证

      数据集的版权限制

      开放许可证 - 允许商业使用

      语言数据的版权限制

      开放许可证 - 允许商业使用

      已知的技术限制

      技术限制

      数据集仅限于维基百科中存在的主题,更具体地说,只包含在至少包含一张表的文章中存在的主题。 体育和国家占数据集的53.4%。其余部分由更广泛的主题组成,如欧洲,北美和政治