数据集:

turk

任务:

文生文

子任务:

text-simplification

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

machine-generated

源数据集:

original

许可:

gpl-3.0

数据集介绍文件清单

英文

TURK 数据集卡片

数据集摘要

TURK 是一个用于评估英语句子简化的多参考数据集。该数据集包含来自 Wikipedia 的 2,359 个句子。每个句子都与8个由众包工人提供的仅关注词汇改写（无句子拆分或删除）的简化形式相关联。

支持的任务和排行榜

该任务没有排行榜。

语言

TURK 仅包含英文文本（BCP-47: en）。

数据集结构

数据实例

一个实例包括一个原始句子和8个可能的参考简化形式，重点是词汇改写。

数据字段

原始：来自源数据集的原始句子
简化形式：由众包工人生成的一组参考简化形式

数据分割

TURK 不包含训练集；许多模型使用 “ WikiLarge ”（Zhang and Lapata, 2017）或 “ Wiki-Auto ”（Jiang et. al 2020）进行训练。

每个输入句子都有8个相关的参考简化句子。2,359个输入句子随机分为2,000个验证句子和359个测试句子。

数据集创建

策划理由

TURK 数据集的构建是为了评估文本简化任务。它包含了多个人工编写的参考文本，专注于词汇简化。

来源数据

初始数据收集和规范化

数据集中的输入句子来自 Wikipedia 。

谁是源语言的生产者？

参考文献是通过亚马逊众包工人收集的。要求标注者提供简化形式，不丢失任何信息或拆分输入句子。论文中未提供其他人口统计或补偿信息。

注释

注释过程

标注者所接收的指示可在论文中找到。

谁是标注者？

标注者是亚马逊众包工人。

个人和敏感信息

由于数据集是从英语维基百科（2009年8月22日版本）提取出来的，所以数据集中包含的所有信息已经在公共领域。

使用数据的注意事项

数据的社会影响

该数据集通过创建一个更高质量的验证和测试数据集，推动了文本简化研究的发展。而文本简化的进展又有潜力增加广大受众对书面文件的可访问性。

偏见讨论

数据集可能包含一些社会偏见，因为输入句子是基于维基百科的。研究表明，英文维基百科既包含性别偏见，也包含种族偏见。

其他已知限制

由于数据集仅包含来自维基百科的2,359个句子，它局限于维基百科上存在的一小部分主题。

附加信息

数据集创建者

TURK 是宾夕法尼亚大学的研究人员开发的。该工作得到了美国国家科学基金会（NSF）的IIS-1430651和NSF GRFP的1232825资助。

许可信息

GNU General Public License v3.0

引用信息

 @article{Xu-EtAl:2016:TACL,
 author = {Wei Xu and Courtney Napoles and Ellie Pavlick and Quanze Chen and Chris Callison-Burch},
 title = {Optimizing Statistical Machine Translation for Text Simplification},
 journal = {Transactions of the Association for Computational Linguistics},
 volume = {4},
 year = {2016},
 url = {https://cocoxu.github.io/publications/tacl2016-smt-simplification.pdf},
 pages = {401--415}
 }

贡献

感谢 @mounicam 添加了这个数据集。

作者:

佚名

数据集大小:

18.37 KB