数据集:
turk
任务:
文生文子任务:
text-simplification语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
machine-generated源数据集:
original许可:
gpl-3.0TURK 是一个用于评估英语句子简化的多参考数据集。该数据集包含来自 Wikipedia 的 2,359 个句子。每个句子都与8个由众包工人提供的仅关注词汇改写(无句子拆分或删除)的简化形式相关联。
该任务没有排行榜。
TURK 仅包含英文文本(BCP-47: en)。
一个实例包括一个原始句子和8个可能的参考简化形式,重点是词汇改写。
TURK 不包含训练集;许多模型使用 “ WikiLarge ”(Zhang and Lapata, 2017)或 “ Wiki-Auto ”(Jiang et. al 2020)进行训练。
每个输入句子都有8个相关的参考简化句子。2,359个输入句子随机分为2,000个验证句子和359个测试句子。
TURK 数据集的构建是为了评估文本简化任务。它包含了多个人工编写的参考文本,专注于词汇简化。
数据集中的输入句子来自 Wikipedia 。
谁是源语言的生产者?参考文献是通过亚马逊众包工人收集的。要求标注者提供简化形式,不丢失任何信息或拆分输入句子。论文中未提供其他人口统计或补偿信息。
标注者所接收的指示可在论文中找到。
谁是标注者?标注者是亚马逊众包工人。
由于数据集是从英语维基百科(2009年8月22日版本)提取出来的,所以数据集中包含的所有信息已经在公共领域。
该数据集通过创建一个更高质量的验证和测试数据集,推动了文本简化研究的发展。而文本简化的进展又有潜力增加广大受众对书面文件的可访问性。
数据集可能包含一些社会偏见,因为输入句子是基于维基百科的。研究表明,英文维基百科既包含性别偏见,也包含种族偏见。
由于数据集仅包含来自维基百科的2,359个句子,它局限于维基百科上存在的一小部分主题。
TURK 是宾夕法尼亚大学的研究人员开发的。该工作得到了美国国家科学基金会(NSF)的IIS-1430651和NSF GRFP的1232825资助。
GNU General Public License v3.0
@article{Xu-EtAl:2016:TACL, author = {Wei Xu and Courtney Napoles and Ellie Pavlick and Quanze Chen and Chris Callison-Burch}, title = {Optimizing Statistical Machine Translation for Text Simplification}, journal = {Transactions of the Association for Computational Linguistics}, volume = {4}, year = {2016}, url = {https://cocoxu.github.io/publications/tacl2016-smt-simplification.pdf}, pages = {401--415} }
感谢 @mounicam 添加了这个数据集。