数据集:
GEM/SIMPITIKI
任务:
文生文子任务:
text-simplification语言:
it计算机处理:
unknown语言创建人:
unknown批注创建人:
crowd-sourced源数据集:
original许可:
cc-by-4.0您可以在 GEM Website 中找到主要的数据卡片。
SIMPITIKI 是一个意大利文简化数据集。它的示例是从意大利维基百科中选择的,这些示例的编辑跟踪描述中包含"简化"一词。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/SIMPITIKI')
数据加载器可以在 here 找到。
网站 论文 作者Sara Tonelli(布鲁诺凯斯勒基金会), Alessio Palmero Aprosio(布鲁诺凯斯勒基金会), Francesca Saltori(布鲁诺凯斯勒基金会)
@article{tonelli2016simpitiki, title={SIMPITIKI: a Simplification corpus for Italian}, author={Tonelli, Sara and Aprosio, Alessio Palmero and Saltori, Francesca}, journal={Proceedings of CLiC-it}, year={2016} }联系人姓名
Sara Tonelli
联系人电子邮件satonelli@fbk.eu
有排行榜吗?否
否
方言无
支持的语言意大利文
许可证知识共享署名4.0国际许可
预期用途该数据集的目的是通过学习不同类型的转换(动词到名词,名词到动词,删除,插入等)来训练自然语言生成模型以简化复杂文本。
主要任务简化
交流目标该数据集旨在通过不同的文本转换提高意大利语文本简化研究。
学术机构,独立机构
组织布鲁诺凯斯勒基金会(FBK)
数据集创建者Sara Tonelli(布鲁诺凯斯勒基金会), Alessio Palmero Aprosio(布鲁诺凯斯勒基金会), Francesca Saltori(布鲁诺凯斯勒基金会)
资金通过"SIMPATICO项目"获得欧盟2020年地平线计划的资助(H2020-EURO-6-2015,编号692819)
谁将数据集添加到GEM中?Sebastien Montella(Orange Labs),Vipul Raheja(Grammarly Inc.)
每个样本都有以下字段:
该数据集组织成一对对,其中原始文本(输入)与其简化文本(输出)相关联。对于高级分析,还提供了每个样本的编辑转换和源数据集。
如何选择标签?SIMPITIKI数据集从意大利维基百科中选择文档,这些文档的编辑跟踪描述中包含"简化"一词。适用于意大利特伦托市(意大利)的公共管理领域的文件
示例实例{"transformation_id": 31, "transformation_type": "Transformation - Lexical Substitution (word level)", "source_dataset": "tn", "text": "- assenza per <del>e</del>si<del>genze</del> particolari attestate da relazione dei servizi sociali;", "simplified_text": "- assenza per <ins>bi</ins>s<ins>ogn</ins>i particolari attestati da relazione dei servizi sociali;"}数据拆分
提议进行多个拆分,以便在不同配置上训练模型:
-"train":从初始语料库随机选择的训练样本,816个训练样本。-"validation":从初始语料库随机选择的验证样本,174个验证样本。-"test":从初始语料库随机选择的测试样本,176个验证样本。-"challenge_seen_transformations_train":此训练挑战拆分包括特定的转换以简化原始文本。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。562个训练样本。-"challenge_seen_transformations_val":此验证挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。121个验证样本。-"challenge_seen_transformations_test":此测试挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。127个测试样本。-"challenge_unseen_transformations_test":"插入 - 主题","删除 - 主题","转换-词汇替换(短语级别)","转换-动词到名词(名词化)","转换-动词的语态"。356个测试样本。-"challenge_itwiki_train":此挑战拆分包括从意大利维基百科中随机选择的样本。402个训练样本。-"challenge_itwiki_val":此验证挑战拆分包括从意大利维基百科中随机选择的样本。86个验证样本。-"challenge_itwiki_test":此测试挑战拆分包括从意大利维基百科中随机选择的样本。87个测试样本。-"challenge_tn_test":此测试挑战拆分包括来自特伦托市政府文件('tn')的所有样本。591个测试样本。
拆分标准训练比例设置为0.7。验证和测试在剩余的30%的数据集中以相同的方式进行划分。
此数据集促进了意大利语的文本简化任务。
类似的数据集否
数据集评估的能力可以评估模型是否能够根据不同的简化转换来简化文本。
是
是否添加了其他拆分?是
拆分信息SIMPITIKI数据集提供了一个单一文件。提议进行多个拆分以在不同的配置上训练模型:-"train":从初始语料库随机选择的训练样本,816个训练样本。-"validation":从初始语料库随机选择的验证样本,174个验证样本。-"test":从初始语料库随机选择的测试样本,176个验证样本。-"challenge_seen_transformations_train":此训练挑战拆分包括特定的转换以简化原始文本。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。562个训练样本。-"challenge_seen_transformations_val":此验证挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。121个验证样本。-"challenge_seen_transformations_test":此测试挑战拆分包括与训练过程中观察到的相同转换。准确地说,转换是"分割"、"合并"、"重排序"、"插入-动词"、"插入-其他"、"删除-动词"、"删除-其他"、"转换-词汇替换(单词级别)"、"转换-指代替换"、"转换-名词到动词"、"转换-动词特征"。127个测试样本。-"challenge_unseen_transformations_test":"插入 - 主题","删除 - 主题","转换-词汇替换(短语级别)","转换-动词到名词(名词化)","转换-动词的语态"。356个测试样本。-"challenge_itwiki_train":此挑战拆分包括从意大利维基百科中随机选择的样本。402个训练样本。-"challenge_itwiki_val":此验证挑战拆分包括从意大利维基百科中随机选择的样本。86个验证样本。-"challenge_itwiki_test":此测试挑战拆分包括从意大利维基百科中随机选择的样本。87个测试样本。-"challenge_tn_test":此测试挑战拆分包括来自特伦托市政府文件('tn')的所有样本。591个测试样本。
拆分动机这些拆分允许研究模型在编辑/转换("challenge_seen_transformations_test" / "challenge_unseen_transformations_test")方面的泛化能力,并进行到不同领域的迁移学习("challenge_tn_test")。
简化:将输入文本转化为简化版本的过程。
这些拆分允许研究模型在编辑/转换("challenge_seen_transformations_test" / "challenge_unseen_transformations_test")方面的泛化能力,并进行到不同领域的迁移学习("challenge_tn_test")。
评估指标BLEU , 其他:其他指标
其他指标FKBLEU( https://aclanthology.org/Q16-1029.pdf ):结合了Flesch-Kincaid指标和iBLEU指标。SARI( https://aclanthology.org/Q16-1029.pdf ):将系统输出与参考文本和输入句子进行比较。它明确地测量了系统添加、删除和保留的单词的质量。单词级F1度量。
是否有先前的结果?否
大多数文本简化的资源都是用英语。为了刺激对其他语言的研究,SIMPITIKI提出了一个意大利语语料库,其中包含复杂-简单句子对。
交际目标文本简化可以使阅读文本更加流畅,以提高理解。
来自不同来源是
来源详细信息意大利维基百科(人工选择)意大利特伦托市政府文件的手动注释
找到的
在哪里找到的?单个网站,离线媒体收集
语言制作者SIMPITIKI是由意大利维基百科和意大利特伦托市政府文件的文档组成的。
主题涵盖范围来自特伦托市政府文件语料库的样本属于行政领域。
数据验证数据策划者验证
是否过滤了数据?没有过滤
众包
评定人数不详
评定人资质母语人士
每个训练样本的评定人数0
每个测试样本的评定人数0
注释服务?不详
注释值根据Brunato等人设计的标签,注释者指定了任何标签:-分割:将一个从句分成两个从句。-合并:将两个或多个从句合并在一起。-重排序:改变词序。-插入:插入提供支持信息的单词或短语到原句中-删除:删除多余的信息。-转换:对句子进行修改,可影响词汇、形态句法和句法级别的句子,还会产生重叠现象
是否有质量控制?不详
不
使用数据的理由该数据集在网上以CC-BY 4.0许可证提供。
可能
PII类别通用PII
是否有PII标识?无识别
否
否
是
数据集如何满足需求SIMPITIKI的创建者希望促进意大利语的文本简化,因为除了英语之外,其他语言可用资源很少。
不确定
仅限研究使用
语言数据的版权限制仅限研究使用
表面度量(BLEU、chrf++等)的风险在于在简化输入文档时未保证语义适应性。