数据集:

turk

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

machine-generated

源数据集:

original

许可:

gpl-3.0
英文

TURK 数据集卡片

数据集摘要

TURK 是一个用于评估英语句子简化的多参考数据集。该数据集包含来自 Wikipedia 的 2,359 个句子。每个句子都与8个由众包工人提供的仅关注词汇改写(无句子拆分或删除)的简化形式相关联。

支持的任务和排行榜

该任务没有排行榜。

语言

TURK 仅包含英文文本(BCP-47: en)。

数据集结构

数据实例

一个实例包括一个原始句子和8个可能的参考简化形式,重点是词汇改写。

数据字段

  • 原始:来自源数据集的原始句子
  • 简化形式:由众包工人生成的一组参考简化形式

数据分割

TURK 不包含训练集;许多模型使用 “ WikiLarge ”(Zhang and Lapata, 2017)或 “ Wiki-Auto ”(Jiang et. al 2020)进行训练。

每个输入句子都有8个相关的参考简化句子。2,359个输入句子随机分为2,000个验证句子和359个测试句子。

数据集创建

策划理由

TURK 数据集的构建是为了评估文本简化任务。它包含了多个人工编写的参考文本,专注于词汇简化。

来源数据

初始数据收集和规范化

数据集中的输入句子来自 Wikipedia 。

谁是源语言的生产者?

参考文献是通过亚马逊众包工人收集的。要求标注者提供简化形式,不丢失任何信息或拆分输入句子。论文中未提供其他人口统计或补偿信息。

注释

注释过程

标注者所接收的指示可在论文中找到。

谁是标注者?

标注者是亚马逊众包工人。

个人和敏感信息

由于数据集是从英语维基百科(2009年8月22日版本)提取出来的,所以数据集中包含的所有信息已经在公共领域。

使用数据的注意事项

数据的社会影响

该数据集通过创建一个更高质量的验证和测试数据集,推动了文本简化研究的发展。而文本简化的进展又有潜力增加广大受众对书面文件的可访问性。

偏见讨论

数据集可能包含一些社会偏见,因为输入句子是基于维基百科的。研究表明,英文维基百科既包含性别偏见,也包含种族偏见。

其他已知限制

由于数据集仅包含来自维基百科的2,359个句子,它局限于维基百科上存在的一小部分主题。

附加信息

数据集创建者

TURK 是宾夕法尼亚大学的研究人员开发的。该工作得到了美国国家科学基金会(NSF)的IIS-1430651和NSF GRFP的1232825资助。

许可信息

GNU General Public License v3.0

引用信息

 @article{Xu-EtAl:2016:TACL,
 author = {Wei Xu and Courtney Napoles and Ellie Pavlick and Quanze Chen and Chris Callison-Burch},
 title = {Optimizing Statistical Machine Translation for Text Simplification},
 journal = {Transactions of the Association for Computational Linguistics},
 volume = {4},
 year = {2016},
 url = {https://cocoxu.github.io/publications/tacl2016-smt-simplification.pdf},
 pages = {401--415}
 }

贡献

感谢 @mounicam 添加了这个数据集。