数据集:
GEM/turku_paraphrase_corpus
语言:
fi计算机处理:
unknown语言创建人:
unknown批注创建人:
expert-created源数据集:
original其他:
paraphrasing许可:
cc-by-sa-4.0GEM Website 上可以找到主要的数据卡片。
这是一个芬兰的同义词语料库,包含了一对文本段落,其中一个典型段落大约是一个句子长。它可用于识别或生成同义词。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/turku_paraphrase_corpus')
数据加载器可以在 here 找到。
网站 论文 作者Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpeläinen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sevón, Otto Tarkka (TurkuNLP / University of Turku)
@inproceedings{kanerva-etal-2021-finnish, title = {Finnish Paraphrase Corpus}, author = {Kanerva, Jenna and Ginter, Filip and Chang, Li-Hsin and Rastas, Iiro and Skantsi, Valtteri and Kilpel{\"a}inen, Jemina and Kupari, Hanna-Mari and Saarni, Jenna and Sev{\'o}n, Maija and Tarkka, Otto}, booktitle = {Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa'21)}, year = {2021}, publisher = {Link{\"o}ping University Electronic Press, Sweden}, url = {https://aclanthology.org/2021.nodalida-main.29}, pages = {288--298} }联系人姓名
Jenna Kanerva, Filip Ginter
联系人邮箱jmnybl@utu.fi , figint@utu.fi
是否有排行榜?否
否
方言覆盖范围标准书面语,口语
支持的语言芬兰语
许可证cc-by-sa-4.0:署名-相同方式共享4.0国际
使用目的同义词分类,同义词生成
主要任务重述
交际目标该语料库提供了自然发生的芬兰同义词,力求低词汇重叠,因此支持许多需要语言理解的下游应用。
学术机构
组织图尔库大学
数据集创建者Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpeläinen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sevón, Otto Tarkka (TurkuNLP / University of Turku)
资金支持图尔库同义词语料库项目得到了芬兰学术研究院的资助,以及欧洲语言网格项目通过其关于试点项目的公开招标所获得的资金。欧洲语言网格项目的资金来自欧盟的Horizon 2020研究和创新计划,Grant Agreement no. 825627 (ELG)。
谁将数据集添加到GEM中?Jenna Kanerva, Filip Ginter (TurkuNLP /University of Turku)
该数据集由一对文本段构成,其中一个典型段落大约是一个句子长,但一个段落可能比一个句子长或短。因此,每个示例包括两个文本段(字符串),手动标注的标签以指示同义词类型(字符串),以及其他元数据。
该数据集包括三种不同的模式: plain(普通)、classification(分类)和generation(生成)。 plain(普通)模式是在没有任何额外的预处理或转换的情况下加载原始数据,而classification(分类)模式直接构建了适合训练同义词分类器的数据形式,在数据中每个示例都以不同的方向重复(文本1、文本2、标签)--> (文本2、文本1、标签),同时对标签翻转进行处理(尖括号>或<标志的同义词)。 在generation(生成)模式中,预处理示例以便直接适用于同义词生成任务。在这种情况下,不适合生成的同义词被丢弃(如负面和高度依赖上下文的同义词),并且提供了特定方向的同义词,以防止模型产生幻觉(即模型学会引入新信息)。其余的同义词均以两个方向提供(文本1、文本2、标签)--> (文本2、文本1、标签)。
每个 plain(普通)模式的对将包括以下字段:
gem_id:同义词对的标识符(字符串) goeswith:同义词提取自的文档的标识符,如果同义词的来源不是来自文档结构化数据,则可能为不可用(字符串) fold:0-99,将数据分为100个部分并考虑文档边界,您可以使用这个数字来安全地实现交叉验证,因为来自同一文档的所有同义词位于一个fold中(int) text1:第一个同义词段(字符串) text2:第二个同义词段(字符串) label:手动注释的标签(字符串) binary_label:将标签转换为positive(同义词)和negative(非同义词)两个值的二进制标签(字符串) is_rewrite:指示示例是否为人工制作的重写还是自然发生的同义词(布尔值)
每个 generation(生成)模式的对将包括相同的字段,只是 text1 和 text2 被重命名为 input 和 output,以指示生成方向。因此,字段如下:
gem_id:同义词对的标识符(字符串) goeswith:同义词提取自的文档的标识符,如果同义词的来源不是来自文档结构化数据,则可能为不可用(字符串) fold:0-99,将数据分为100个部分并考虑文档边界,您可以使用这个数字来安全地实现交叉验证,因为来自同一文档的所有同义词位于一个fold中(int) input:用于生成的输入同义词段(字符串) output:用于生成的输出同义词段(字符串) label:手动注释的标签(字符串) binary_label:将标签转换为positive(同义词)和negative(非同义词)两个值的二进制标签(字符串) is_rewrite:指示示例是否为人工制作的重写还是自然发生的同义词(布尔值)
示例实例{ 'gem_id': 'gem-turku_paraphrase_corpus-train-15', 'goeswith': 'episode-02243', 'fold': 0, 'text1': 'Mitä merkitystä sillä on?', 'text2': 'Mitä väliä sillä edes on?', 'label': '4', 'binary_label': 'positive', 'is_rewrite': False }数据拆分
该语料库包括3个拆分: 训练、验证和测试。
拆分准则数据随机分为三个部分,但同一文档(电影、电视剧集、新闻文章、学生翻译或考题)的所有同义词处于同一部分。 所有的拆分都经过了手动注释。
该数据集提供了大量高质量(经过手动收集和验证)的芬兰同义词。
相似的数据集是
独特的语言覆盖范围否
数据集测量的能力自然语言理解,语言变体
是
GEM的修改修改了数据点
修改细节数据结构稍微简化,发布提供了预先转换为两个任务(同义词分类和生成)的数据,其中一些数据实例以不同的方向重复,一些数据实例被丢弃,因为它们不适合生成(例如,负面事例)。
是否有额外的拆分?否
自然语言理解,语言变体
是否提供先前的结果?是
其他评估方法同义词分类中的F-score指标
该数据集完全经过手动注释。该数据集力求包含具有低词汇重叠的有趣同义词,因此注释有两个阶段。首先,注释员受指令从两个相关文档中手动提取有趣的同义词。然后,根据给定的注释方案,对所有提取到的同义词进行手动标注。
注释方案如下:4: 同义词在所有可能的上下文中是同义词3: 同义词在给定文档的上下文中是同义词,但在一般上下文中不是同义词2: 相关但不是同义词在注释过程中还使用了标签1(不相关)和x(跳过,例如,错误的语言),但是对使用这些标签进行了微不足道的注释,并从发布的语料库中丢弃了这些示例。
具有下列标志的同义词被注释为标签4的同义词:<: txt1比txt2更一般;txt2比txt1更具体(方向性同义词,txt2可以替换为txt1的所有上下文,但不能反过来)
: txt2比txt1更一般;txt1比txt2更具体(方向性同义词,txt1可以替换为txt2的所有上下文,但不能反过来)i: 细微的可追踪差异(在词法数或格上有区别,'this'与'that'等)s: 风格或强度差异(例如,意思等效,但其中一个陈述比另一个非常通俗)
对于标注为4标签之外的同义词,注释员有一个选择,即重写文本段,使重写的同义词对形成标签4(通用)同义词。这是用于将简单的编辑转换为上下文或方向性同义词转换为通用同义词的情况。对于重写的例子,都提供了原始和重写后的对,标注了相应的标签。
交际目标表示具有相同含义但不同表面表达的文本段。
来源于不同来源是
来源细节电影和电视剧集字幕(82%)新闻文章(9%)讨论区留言(8%)大学的翻译练习(1%)大学的课程论文和考试(<1%)
找到,其它
找到在哪里?多个网站,离线媒体集合,其他
语言制作者电影和电视剧字幕来自OPUS OpenSubtitles2018集合,该集合基于来自 OpenSubtitles 的数据.新闻文章是从芬兰的两个新闻网站YLE和HS收集的,时间范围是2017-2020年。讨论区邮件来自为学术用途发布的芬兰Suomi24讨论区( http://urn.fi/urn:nbn:fi:lb-2020021801 )。大学的翻译练习、论文和考试是在项目期间收集的。
数据验证由数据策划员验证
数据是否经过筛选?未筛选
专家创建
评分人数2<n<10
评分人员资格TurkuNLP研究小组成员,芬兰语的母语者,每个注释者在语言学或与语言相关的领域拥有学位或正在进行相关领域的学习。
每个训练示例的评分人数1
每个测试示例的评分人数1
注释服务?没有
注释值由另一个评分人验证
质量控制细节部分双重注释,定期分配双重注释批次,以监测注释一致性。双重注释中,一个注释员首先提取候选同义词,并将这些候选同义词分配给两个不同的注释员,他们独立进行标签注释。然后,合并标签注释,并与整个注释团队一起解决冲突标签。
是
同意政策细节该语料库主要基于公共/开放数据。对于其他数据源(学生材料),在收集期间与数据提供者达成了许可协议。
可能
PII类别通用PII
是否有PII识别?没有识别
没有
没有
没有
没有
无
开放许可证-允许商业使用
语言数据上的版权限制开放许可证-允许商业使用