数据集:

GEM/SIMPITIKI

任务:

文生文

语言:

it

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

crowd-sourced

源数据集:

original

许可:

cc-by-4.0
英文

GEM/SIMPITIKI 数据集卡片

链接到主要数据卡片

您可以在 GEM Website 中找到主要的数据卡片。

数据集概述

SIMPITIKI 是一个意大利文简化数据集。它的示例是从意大利维基百科中选择的,这些示例的编辑跟踪描述中包含"简化"一词。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/SIMPITIKI')

数据加载器可以在 here 找到。

网站

Github

论文

Github

作者

Sara Tonelli(布鲁诺凯斯勒基金会), Alessio Palmero Aprosio(布鲁诺凯斯勒基金会), Francesca Saltori(布鲁诺凯斯勒基金会)

数据集概览

数据和文档的获取方式

网页

Github

下载

Github

论文

Website

BibTex
@article{tonelli2016simpitiki,
  title={SIMPITIKI: a Simplification corpus for Italian},
  author={Tonelli, Sara and Aprosio, Alessio Palmero and Saltori, Francesca},
  journal={Proceedings of CLiC-it},
  year={2016}
}
联系人姓名

Sara Tonelli

联系人电子邮件

satonelli@fbk.eu

有排行榜吗?

语言和预期用途

多语言?

方言

支持的语言

意大利文

许可证

知识共享署名4.0国际许可

预期用途

该数据集的目的是通过学习不同类型的转换(动词到名词,名词到动词,删除,插入等)来训练自然语言生成模型以简化复杂文本。

主要任务

简化

交流目标

该数据集旨在通过不同的文本转换提高意大利语文本简化研究。

学分

组织类型

学术机构,独立机构

组织

布鲁诺凯斯勒基金会(FBK)

数据集创建者

Sara Tonelli(布鲁诺凯斯勒基金会), Alessio Palmero Aprosio(布鲁诺凯斯勒基金会), Francesca Saltori(布鲁诺凯斯勒基金会)

资金

通过"SIMPATICO项目"获得欧盟2020年地平线计划的资助(H2020-EURO-6-2015,编号692819)

谁将数据集添加到GEM中?

Sebastien Montella(Orange Labs),Vipul Raheja(Grammarly Inc.)

数据集结构

数据字段

每个样本都有以下字段:

  • gem_id(字符串):唯一样本ID-文本(字符串):要简化的原始文本-简化文本(字符串):"text"字段的简化版本-转换类型(字符串):简化原始文本所应用的转换的性质-源数据集(字符串):样本的初始数据集来源。值为'itwiki'(意大利维基百科)或'tn'(意大利Trento市自治文件的手动注释)
结构原因

该数据集组织成一对对,其中原始文本(输入)与其简化文本(输出)相关联。对于高级分析,还提供了每个样本的编辑转换和源数据集。

如何选择标签?

SIMPITIKI数据集从意大利维基百科中选择文档,这些文档的编辑跟踪描述中包含"简化"一词。适用于意大利特伦托市(意大利)的公共管理领域的文件

示例实例
{"transformation_id": 31, "transformation_type": "Transformation - Lexical Substitution (word level)", "source_dataset": "tn", "text": "- assenza per <del>e</del>si<del>genze</del> particolari attestate da relazione dei servizi sociali;", "simplified_text": "- assenza per <ins>bi</ins>s<ins>ogn</ins>i particolari attestati da relazione dei servizi sociali;"}
数据拆分

提议进行多个拆分,以便在不同配置上训练模型:

-"train":从初始语料库随机选择的训练样本,816个训练样本。-"validation":从初始语料库随机选择的验证样本,174个验证样本。-"test":从初始语料库随机选择的测试样本,176个验证样本。-"challenge_seen_transformations_train":此训练挑战拆分包括特定的转换以简化原始文本。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。562个训练样本。-"challenge_seen_transformations_val":此验证挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。121个验证样本。-"challenge_seen_transformations_test":此测试挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。127个测试样本。-"challenge_unseen_transformations_test":"插入 - 主题","删除 - 主题","转换-词汇替换(短语级别)","转换-动词到名词(名词化)","转换-动词的语态"。356个测试样本。-"challenge_itwiki_train":此挑战拆分包括从意大利维基百科中随机选择的样本。402个训练样本。-"challenge_itwiki_val":此验证挑战拆分包括从意大利维基百科中随机选择的样本。86个验证样本。-"challenge_itwiki_test":此测试挑战拆分包括从意大利维基百科中随机选择的样本。87个测试样本。-"challenge_tn_test":此测试挑战拆分包括来自特伦托市政府文件('tn')的所有样本。591个测试样本。

拆分标准

训练比例设置为0.7。验证和测试在剩余的30%的数据集中以相同的方式进行划分。

GEM中的数据集

放入GEM的理由

数据集为什么在GEM中?

此数据集促进了意大利语的文本简化任务。

类似的数据集

数据集评估的能力

可以评估模型是否能够根据不同的简化转换来简化文本。

GEM特定的策划

GEM是否修改了数据?

是否添加了其他拆分?

拆分信息

SIMPITIKI数据集提供了一个单一文件。提议进行多个拆分以在不同的配置上训练模型:-"train":从初始语料库随机选择的训练样本,816个训练样本。-"validation":从初始语料库随机选择的验证样本,174个验证样本。-"test":从初始语料库随机选择的测试样本,176个验证样本。-"challenge_seen_transformations_train":此训练挑战拆分包括特定的转换以简化原始文本。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。562个训练样本。-"challenge_seen_transformations_val":此验证挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。121个验证样本。-"challenge_seen_transformations_test":此测试挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。127个测试样本。-"challenge_unseen_transformations_test":"插入 - 主题","删除 - 主题","转换-词汇替换(短语级别)","转换-动词到名词(名词化)","转换-动词的语态"。356个测试样本。-"challenge_itwiki_train":此挑战拆分包括从意大利维基百科中随机选择的样本。402个训练样本。-"challenge_itwiki_val":此验证挑战拆分包括从意大利维基百科中随机选择的样本。86个验证样本。-"challenge_itwiki_test":此测试挑战拆分包括从意大利维基百科中随机选择的样本。87个测试样本。-"challenge_tn_test":此测试挑战拆分包括来自特伦托市政府文件('tn')的所有样本。591个测试样本。

拆分动机

这些拆分允许研究模型在编辑/转换("challenge_seen_transformations_test" / "challenge_unseen_transformations_test")方面的泛化能力,并进行到不同领域的迁移学习("challenge_tn_test")。

入门指南

资源指南
  • Coster and Kauchak, Simple English Wikipedia: A New Text Simplification Task, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pages 665–669, Portland, Oregon, June 19-24, 2011
  • Xu et al, Optimizing Statistical Machine Translation for Text Simplification, Transactions of the Association for Computational Linguistics, vol. 4, pp. 401–415, 2016
  • Aprosio et al, Neural Text Simplification in Low-Resource Conditions Using Weak Supervision, Proceedings of the Workshop on Methods for Optimizing and Evaluating Neural Language Generation (NeuralGen), pages 37–44, Minneapolis, Minnesota, USA, June 6, 2019
技术术语

简化:将输入文本转化为简化版本的过程。

先前结果

先前结果

评估模型能力

这些拆分允许研究模型在编辑/转换("challenge_seen_transformations_test" / "challenge_unseen_transformations_test")方面的泛化能力,并进行到不同领域的迁移学习("challenge_tn_test")。

评估指标

BLEU , 其他:其他指标

其他指标

FKBLEU( https://aclanthology.org/Q16-1029.pdf ):结合了Flesch-Kincaid指标和iBLEU指标。SARI( https://aclanthology.org/Q16-1029.pdf ):将系统输出与参考文本和输入句子进行比较。它明确地测量了系统添加、删除和保留的单词的质量。单词级F1度量。

是否有先前的结果?

数据集策划

原始策划

原始策划原理

大多数文本简化的资源都是用英语。为了刺激对其他语言的研究,SIMPITIKI提出了一个意大利语语料库,其中包含复杂-简单句子对。

交际目标

文本简化可以使阅读文本更加流畅,以提高理解。

来自不同来源

来源详细信息

意大利维基百科(人工选择)意大利特伦托市政府文件的手动注释

语言数据

语言数据的获取方式

找到的

在哪里找到的?

单个网站,离线媒体收集

语言制作者

SIMPITIKI是由意大利维基百科和意大利特伦托市政府文件的文档组成的。

主题涵盖范围

来自特伦托市政府文件语料库的样本属于行政领域。

数据验证

数据策划者验证

是否过滤了数据?

没有过滤

结构化注释

是否有其他注释?

众包

评定人数

不详

评定人资质

母语人士

每个训练样本的评定人数

0

每个测试样本的评定人数

0

注释服务?

不详

注释值

根据Brunato等人设计的标签,注释者指定了任何标签:-分割:将一个从句分成两个从句。-合并:将两个或多个从句合并在一起。-重排序:改变词序。-插入:插入提供支持信息的单词或短语到原句中-删除:删除多余的信息。-转换:对句子进行修改,可影响词汇、形态句法和句法级别的句子,还会产生重叠现象

是否有质量控制?

不详

同意

是否有同意政策?

使用数据的理由

该数据集在网上以CC-BY 4.0许可证提供。

私人识别信息(PII)

是否包含PII?

可能

PII类别

通用PII

是否有PII标识?

无识别

维护

是否有维护计划?

更广泛的社会背景

关于数据集社会影响的先前研究

是否使用基于数据的模型

对弱势社区的影响

是否满足弱势社区的需求?

数据集如何满足需求

SIMPITIKI的创建者希望促进意大利语的文本简化,因为除了英语之外,其他语言可用资源很少。

偏见讨论

是否存在记录的社会偏见?

不确定

使用数据的注意事项

PII风险和责任

许可证

数据集的版权限制

仅限研究使用

语言数据的版权限制

仅限研究使用

已知的技术限制

不推荐使用情况

表面度量(BLEU、chrf++等)的风险在于在简化输入文档时未保证语义适应性。