数据集:
GEM/totto
任务:
表格到文本语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
none源数据集:
original其他:
data-to-text许可:
cc-by-sa-3.0您可以在 GEM Website 找到主数据卡。
ToTTo是一个高质量的英语表格到文本数据集,其中包含100,000多个示例,其中包含了一张来自维基百科的带有突出显示单元格的表格,以及描述突出显示的单元格的句子。数据集中的所有示例都经过多次后期编辑,以确保目标与输入信息完全一致。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/totto')
数据加载器可在 here 中找到。
网站n/a
论文 作者Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das
ToTTo Main Repo + ToTTo Supplementary Repo
论文 BibTex@inproceedings{parikh-etal-2020-totto, title = "{ToTTo}: A Controlled Table-To-Text Generation Dataset", author = "Parikh, Ankur and Wang, Xuezhi and Gehrmann, Sebastian and Faruqui, Manaal and Dhingra, Bhuwan and Yang, Diyi and Das, Dipanjan", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.emnlp-main.89", doi = "10.18653/v1/2020.emnlp-main.89", pages = "1173--1186", abstract = "We present ToTTo, an open-domain English table-to-text dataset with over 120,000 training examples that proposes a controlled generation task: given a Wikipedia table and a set of highlighted table cells, produce a one-sentence description. To obtain generated targets that are natural but also faithful to the source table, we introduce a dataset construction process where annotators directly revise existing candidate sentences from Wikipedia. We present systematic analyses of our dataset and annotation process as well as results achieved by several state-of-the-art baselines. While usually fluent, existing methods often hallucinate phrases that are not supported by the table, suggesting that this dataset can serve as a useful research benchmark for high-precision conditional text generation.", }联系人姓名
Ankur Parikh
联系人电子邮件totto@google.com
是否有排行榜?是
排行榜链接 排行榜详细信息此数据集由作者维护的相关且活跃的 leaderboard 。测试集的真实目标/参考资料是私有的,即它们没有公开共享或可下载 - 因此,需要提交到排行榜进行测试集评估。要在开发集或测试集上评估模型和/或提交到排行榜,需要通过此 form 提交模型文件(该表单提供了取消加入排行榜的选项)。
排行榜报告了每个提交的BLEU、PARENT和BLEURT分数的三个集合 - 在整体测试集上,“重叠”子测试集和“非重叠”子测试集。
否
涵盖的方言没有特定的方言。原始语言来自维基百科,由众包评级者进行后编辑
涵盖的语言英语
语言的来源该语言只是经过后编辑的英语(BCP-47:en)维基百科文本。未提供有关注释者的人口信息。可能会出现某些非英语文本,包括法语重音或西里尔字符之类的字符,特别是在以实体名称作为输入表格单元中的值的字段中。
许可证cc-by-sa-3.0:知识共享署名相同方式共享3.0国际
预期使用ToTTo是一项数据到文本生成(NLG)任务,正如论文标题所说。任务如下:给定一张带有行名、列名和表格单元的维基百科表格,并突出显示一部分单元格,为表格的突出部分生成自然语言描述。表格不需要完全规则,即单元格有时可以跨多行或多列。
早期的表到文本NLG任务的一个示例是 Wikibio - 在此输入是维基百科信息框(来自实体相关Wiki页面的右上角)。相比之下,ToTTo主要是来自文章正文的维基百科表格。总的来说,表到文本NLG任务可以看作是数据到文本NLG任务的子类 - 任务是生成结构化或半结构化数据形式的输入的自然语言描述。总的来说,所有的数据到文本NLG任务都不一定有一个明确的表格或其他结构 - 例如, WebNLG 中的输入只是三元组列表。
重要的是,ToTTo与以前的表到文本NLG示例不同之处在于:
数据到文本
交际目标发言人需要产生一个描述给定表格中突出显示的单元格的单一连贯英语句子,同时使用来自表格的元数据和其他适用信息。
产业
策展组织谷歌研究
数据集创建者Ankur Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das
资金谷歌研究
谁将数据集添加到GEM?初始数据卡由Varun Gangal创建,数据加载器由Yacine Jernite编写。Simon Mille通过GEM v2版本更新了数据卡和加载器,并通过新增字段对其进行了扩展。
结构旨在以一种编码突出显示的表格的方式,使行和列可以跨多个宽度字段。其他字段是关于源和注释的元数据。
标签是如何选择的?初始的表-描述对是从维基百科文章中提取的,通过启发式方法(例如数字匹配,至少包含3个非零数字的非日期数字的表格和句子)(有关更多信息,请参见论文的第4节)
主存储库的 README.md 已经提供了对数据实例和字段的详尽说明 here
下面是来自音乐艺术家 Weird Al' Yankovic 维基页面的一个表格示例,可能列出了他的电视出演。
{ "table_page_title": "'Weird Al' Yankovic", "table_webpage_url": "https://en.wikipedia.org/wiki/%22Weird_Al%22_Yankovic", "table_section_title": "Television", "table_section_text": "", "table": "[Described below]", "highlighted_cells": [[22, 2], [22, 3], [22, 0], [22, 1], [23, 3], [23, 1], [23, 0]], "example_id": 12345678912345678912, "sentence_annotations": [{"original_sentence": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Mr. Peanutbutter's brother, Captain Peanutbutter, and was hired to voice the lead role in the 2016 Disney XD series Milo Murphy's Law.", "sentence_after_deletion": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Captain Peanutbutter, and was hired to the lead role in the 2016 series Milo Murphy's Law.", "sentence_after_ambiguity": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Captain Peanutbutter, and was hired for the lead role in the 2016 series Milo Murphy's 'Law.", "final_sentence": "In 2016, Al appeared in 2 episodes of BoJack Horseman as Captain Peanutbutter and was hired for the lead role in the 2016 series Milo Murphy's Law."}], }
表字段展开如下:
[ [ { "column_span": 1, "is_header": true, "row_span": 1, "value": "Year"}, { "column_span": 1, "is_header": true, "row_span": 1, "value": "Title"}, { "column_span": 1, "is_header": true, "row_span": 1, "value": "Role"}, { "column_span": 1, "is_header": true, "row_span": 1, "value": "Notes"} ], [ { "column_span": 1, "is_header": false, "row_span": 1, "value": "1997"}, { "column_span": 1, "is_header": false, "row_span": 1, "value": "Eek! The Cat"}, { "column_span": 1, "is_header": false, "row_span": 1, "value": "Himself"}, { "column_span": 1, "is_header": false, "row_span": 1, "value": "Episode: 'The FugEektive'"} ], ... ]
在其 here 文件夹下,还提供了可浏览的样本。还提供了具有其输出的HTML可视化脚本,位于前述文件夹中。有关访问和可视化这些样本的说明也可以在 here 中找到。
数据拆分该数据集包含120,000个训练示例以及大小相等的开发和测试集,共有7700个示例。有关表尺寸、目标词汇等的更详细列表,请参见论文中的表5和其聚合物。
拆分标准开发和测试拆分进一步等分为 “Overlap” 和 “non-Overlap” 。由于 “Overlap” 集具有培训过程中的标题(行和列)名称与之前所见的没有任何共同点,因此这些示例更加困难。
有一些非常大的表在数据集中,有数千行。表7展示了数据集的一些挑战,表明只有很少的示例需要访问表的描述本身,这使得这些示例成为异常值。
ToTTo是GEM中代表表到文本NLG的两个数据集之一,另一个是 DART 。与DART将多个来源的数据集合并并以统一的环境提供不同,ToTTo来自同质化来源。如上述任务摘要中所解释的,它还具有专门设计的注释过程,旨在减少不同的描述,而这在DART中是不存在的。
此外,ToTTo还是受控生成任务的一个实例 - 在此除了输入(在本例中为表格)以外,还提供了额外的控件(在本例中为突出显示的单元格),作为生成的附加目标。DART任务表述中不包括控件。
类似的数据集是
独特的语言覆盖不是
与其他GEM数据集的区别输入比较复杂,质量比相似的数据集更好。突出显示的表格单元格为模型提供了独特的挑战。
数据集测量的能力推理,表面生成
是
是否有其他拆分?是
拆分信息为GEM评估套件添加了9个ToTTo的挑战集,其中8个专门针对该任务进行了创建,1个来自原始数据。
Input length | Frequency English |
---|---|
1 | 898 |
2 | 1850 |
3 | 2221 |
4 | 1369 |
5 | 483 |
6 | 379 |
7 | 124 |
8 | 128 |
9 | 61 |
10 | 40 |
11 | 20 |
12 | 26 |
13 | 10 |
14 | 14 |
15 | 14 |
16 | 7 |
17 | 6 |
18 | 5 |
19 | 5 |
20 | 5 |
21 | 4 |
22 | 1 |
23 | 2 |
24 | 4 |
25 | 1 |
26...496 | 1 |
Table size | Frequency English |
---|---|
2 | 71 |
3 | 52 |
4 | 36 |
5 | 41 |
6 | 144 |
7 | 47 |
8 | 59 |
9 | 105 |
10 | 162 |
11 | 36 |
12 | 158 |
13 | 35 |
14 | 79 |
15 | 136 |
16 | 111 |
17 | 48 |
18 | 123 |
19 | 29 |
20 | 112 |
21 | 91 |
22 | 17 |
23 | 7 |
24 | 169 |
25 | 56 |
26 | 12 |
27 | 40 |
28 | 77 |
29 | 7 |
30 | 122 |
31 | 4 |
32 | 49 |
33 | 21 |
34 | 7 |
35 | 103 |
36 | 131 |
37 | 10 |
38 | 6 |
39 | 26 |
40 | 110 |
41 | 1 |
42 | 54 |
43 | 6 |
44 | 47 |
45 | 79 |
46 | 4 |
47 | 2 |
48 | 114 |
49 | 18 |
50 | 55 |
51 | 11 |
52 | 43 |
54 | 80 |
55 | 73 |
56 | 64 |
57 | 12 |
58 | 1 |
60 | 114 |
61 | 4 |
63 | 39 |
64 | 36 |
65 | 62 |
66 | 48 |
67 | 1 |
68 | 36 |
69 | 6 |
70 | 81 |
72 | 76 |
73 | 1 |
74 | 1 |
75 | 44 |
76 | 33 |
77 | 30 |
78 | 66 |
79 | 1 |
80 | 83 |
81 | 12 |
82 | 1 |
84 | 80 |
85 | 25 |
86 | 1 |
87 | 3 |
88 | 35 |
90 | 78 |
91 | 18 |
92 | 22 |
93 | 5 |
94 | 2 |
95 | 31 |
96 | 50 |
98 | 11 |
99 | 14 |
100 | 48 |
102 | 24 |
104 | 29 |
105 | 36 |
106 | 2 |
108 | 51 |
110 | 31 |
...8000+ | (up to 10) |
性别、民族和国籍中的类别是基于数据可用性选择的;ToTTo数据集主要包含不以人为中心的表,因此测试集中只有7个人被标记为具有非二进制性别。类似的稀疏性决定了按大陆分组的国籍 - 在测试集中,只有19个国家被超过10人代表。对于有多个大陆公民身份的人,我们可以将其包括在任何所选大陆中。
最后,种族在WikiData中的注释非常稀疏;在ToTTo的150个测试示例中,只有128个是非洲裔美国人。因此,我们无法比较例如约鲁巴语或旁遮普语的人的表现,这两者都有少于五个实例。这里的另一个警告是,其中只有21个人是女性。因此,我们将非洲裔美国人群体与包括所有美国公民的子集的结果进行比较。
拆分动机概括性,公平性,鲁棒性
特定模型使用的 metric
没有
以前的结果可用吗?是
相关的以前结果请参阅排行榜。
选择维基百科文章中出现的表作为数据源的原因如下:
为了避免与早期的 Wikibio 数据集重叠,该数据集专注于来自维基百科人物传记文章的信息框-第一句子对。
最初的完全建构过程将自由文本结合起来并进行注释,旨在充分发挥自由形式文本描述(流畅、高质量且写作不受时间限制,但不同和不忠实)和注释描述(可以定制成忠实于所需任务要求的描述)的优点。
交流目标发言者被要求产生一个描述给定表格中突出显示的单元格的单一连贯英语句子,同时使用元数据和表格中的其他信息。
不同的来源是
来源详细信息wikipedia.org
众包
众包在哪里进行?其他众工平台
语言生产者基本的源语言生产者是维基百科的作者和/或编辑,因为注释从维基百科表格附近的自然文本描述开始。辅助的源语言生产者是注释者(每个示例有两个),他们反复修订这些描述,使其具有一组突出显示的表格单元格。
数据验证通过众包工人验证
数据预处理初始的表-描述对是从维基百科文章中提取的,通过启发式方法(例如数字匹配,至少包含3个非零数字的非日期数字的表格和句子)(有关更多信息,请参见论文的第4节)
该论文没有具体描述注释平台或注释者的位置配置。
是否已筛选数据?通过算法筛选
筛选标准在构建拆分之后,数据策展人筛选了具有罕见表头组合(≤5个示例)且与验证或测试拆分重叠的训练示例。
无
注释服务?没有
有
同意政策详情注释者是知道项目目标并同意将数据作为数据集的一部分发布的全职员工。
不包含PII
为什么没有PII因为来源数据来自维基百科,所以数据集中只包含公共领域中的数据。
有
维护计划详情对于提交内容,可以通过从用于提交的电子邮件账户发送电子邮件至 totto@google.com 来请求删除您的数据。删除请求将在60天内得到回复。
维护人员联系信息Ankur Parikh( aparikh@google.com )
是否有争议机制?提交表单
争议表单链接totto@google.com
无
否
有
分析工作的链接和摘要原始工作以及我们的GEM论文分析了一些偏见
语言生产者是否代表了该语言?此数据集使用表格,并且表格单元格的内容可能自然显示出在维基百科中存在的偏见,例如某些形式的性别偏见(例如 (Graells-Garido et al.,2015) 指出,结婚信息更可能是有关女性而不是男性)。
如前所述,表述(目标/参考)使用了两步注释过程。
从其来源1)中,描述可能出现维基百科文本中的偏见。从2)中的修订开始,描述可能显示出源自注释者撰写的文本的偏见,例如对于较短描述的偏好,因为编写速度更快,或受到支配注释者分布的语言偏好的影响。 (但是,注意这些可能大大减少,因为这里的注释者仅仅是在修订而不是在完全撰写。此外,每个句子都经过至少两个注释者,这起到了防止个别注释者个人偏见的作用。)
自然现象也会导致在报道偏见 (Gordon and Van Durme, 2013) 方面存在其他偏见 - 通过从维基百科中产生的数据同样适用于该数据集。因为来源数据来自维基百科,所以数据集只包含公共领域中的数据。
开放许可证 - 允许商业使用
语言数据的版权限制开放许可证 - 允许商业使用
数据集仅限于维基百科中存在的主题,更具体地说,只包含在至少包含一张表的文章中存在的主题。 体育和国家占数据集的53.4%。其余部分由更广泛的主题组成,如欧洲,北美和政治