数据集:

GEM/turku_paraphrase_corpus

语言:

fi

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

expert-created

源数据集:

original
英文

GEM/turku_paraphrase_corpus的数据集卡片

主要数据卡片链接

GEM Website 上可以找到主要的数据卡片。

数据集摘要

这是一个芬兰的同义词语料库,包含了一对文本段落,其中一个典型段落大约是一个句子长。它可用于识别或生成同义词。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/turku_paraphrase_corpus')

数据加载器可以在 here 找到。

网站

Website

论文

ACL Anthology

作者

Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpeläinen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sevón, Otto Tarkka (TurkuNLP / University of Turku)

数据集概述

在哪里找到数据和相关文件

网页

Website

下载

Github

论文

ACL Anthology

BibTex
@inproceedings{kanerva-etal-2021-finnish,
    title = {Finnish Paraphrase Corpus},
    author = {Kanerva, Jenna and Ginter, Filip and Chang, Li-Hsin and Rastas, Iiro and Skantsi, Valtteri and Kilpel{\"a}inen, Jemina and Kupari, Hanna-Mari and Saarni, Jenna and Sev{\'o}n, Maija and Tarkka, Otto},
    booktitle = {Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa'21)},
    year = {2021},
    publisher = {Link{\"o}ping University Electronic Press, Sweden},
    url = {https://aclanthology.org/2021.nodalida-main.29},
    pages = {288--298}
}
联系人姓名

Jenna Kanerva, Filip Ginter

联系人邮箱

jmnybl@utu.fi , figint@utu.fi

是否有排行榜?

语言和使用目的

多语言?

方言覆盖范围

标准书面语,口语

支持的语言

芬兰语

许可证

cc-by-sa-4.0:署名-相同方式共享4.0国际

使用目的

同义词分类,同义词生成

主要任务

重述

交际目标

该语料库提供了自然发生的芬兰同义词,力求低词汇重叠,因此支持许多需要语言理解的下游应用。

信用

机构类型

学术机构

组织

图尔库大学

数据集创建者

Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpeläinen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sevón, Otto Tarkka (TurkuNLP / University of Turku)

资金支持

图尔库同义词语料库项目得到了芬兰学术研究院的资助,以及欧洲语言网格项目通过其关于试点项目的公开招标所获得的资金。欧洲语言网格项目的资金来自欧盟的Horizon 2020研究和创新计划,Grant Agreement no. 825627 (ELG)。

谁将数据集添加到GEM中?

Jenna Kanerva, Filip Ginter (TurkuNLP /University of Turku)

数据集结构

数据字段

该数据集由一对文本段构成,其中一个典型段落大约是一个句子长,但一个段落可能比一个句子长或短。因此,每个示例包括两个文本段(字符串),手动标注的标签以指示同义词类型(字符串),以及其他元数据。

该数据集包括三种不同的模式: plain(普通)、classification(分类)和generation(生成)。 plain(普通)模式是在没有任何额外的预处理或转换的情况下加载原始数据,而classification(分类)模式直接构建了适合训练同义词分类器的数据形式,在数据中每个示例都以不同的方向重复(文本1、文本2、标签)--> (文本2、文本1、标签),同时对标签翻转进行处理(尖括号>或<标志的同义词)。 在generation(生成)模式中,预处理示例以便直接适用于同义词生成任务。在这种情况下,不适合生成的同义词被丢弃(如负面和高度依赖上下文的同义词),并且提供了特定方向的同义词,以防止模型产生幻觉(即模型学会引入新信息)。其余的同义词均以两个方向提供(文本1、文本2、标签)--> (文本2、文本1、标签)。

每个 plain(普通)模式的对将包括以下字段:

gem_id:同义词对的标识符(字符串) goeswith:同义词提取自的文档的标识符,如果同义词的来源不是来自文档结构化数据,则可能为不可用(字符串) fold:0-99,将数据分为100个部分并考虑文档边界,您可以使用这个数字来安全地实现交叉验证,因为来自同一文档的所有同义词位于一个fold中(int) text1:第一个同义词段(字符串) text2:第二个同义词段(字符串) label:手动注释的标签(字符串) binary_label:将标签转换为positive(同义词)和negative(非同义词)两个值的二进制标签(字符串) is_rewrite:指示示例是否为人工制作的重写还是自然发生的同义词(布尔值)

每个 generation(生成)模式的对将包括相同的字段,只是 text1 和 text2 被重命名为 input 和 output,以指示生成方向。因此,字段如下:

gem_id:同义词对的标识符(字符串) goeswith:同义词提取自的文档的标识符,如果同义词的来源不是来自文档结构化数据,则可能为不可用(字符串) fold:0-99,将数据分为100个部分并考虑文档边界,您可以使用这个数字来安全地实现交叉验证,因为来自同一文档的所有同义词位于一个fold中(int) input:用于生成的输入同义词段(字符串) output:用于生成的输出同义词段(字符串) label:手动注释的标签(字符串) binary_label:将标签转换为positive(同义词)和negative(非同义词)两个值的二进制标签(字符串) is_rewrite:指示示例是否为人工制作的重写还是自然发生的同义词(布尔值)

示例实例
{
  'gem_id':  'gem-turku_paraphrase_corpus-train-15',
  'goeswith': 'episode-02243',
  'fold': 0,
  'text1': 'Mitä merkitystä sillä on?',
  'text2': 'Mitä väliä sillä edes on?',
  'label': '4',
  'binary_label': 'positive',
  'is_rewrite': False
}
数据拆分

该语料库包括3个拆分: 训练、验证和测试。

拆分准则

数据随机分为三个部分,但同一文档(电影、电视剧集、新闻文章、学生翻译或考题)的所有同义词处于同一部分。 所有的拆分都经过了手动注释。

GEM中的数据集

纳入GEM的原因

为什么将数据集纳入GEM?

该数据集提供了大量高质量(经过手动收集和验证)的芬兰同义词。

相似的数据集

独特的语言覆盖范围

数据集测量的能力

自然语言理解,语言变体

GEM特定的策划

为GEM进行了修改?

GEM的修改

修改了数据点

修改细节

数据结构稍微简化,发布提供了预先转换为两个任务(同义词分类和生成)的数据,其中一些数据实例以不同的方向重复,一些数据实例被丢弃,因为它们不适合生成(例如,负面事例)。

是否有额外的拆分?

开始任务

先前的结果

先前的结果

衡量模型能力

自然语言理解,语言变体

是否提供先前的结果?

其他评估方法

同义词分类中的F-score指标

数据集策划

最初策划

最初策划的原因

该数据集完全经过手动注释。该数据集力求包含具有低词汇重叠的有趣同义词,因此注释有两个阶段。首先,注释员受指令从两个相关文档中手动提取有趣的同义词。然后,根据给定的注释方案,对所有提取到的同义词进行手动标注。

注释方案如下:4: 同义词在所有可能的上下文中是同义词3: 同义词在给定文档的上下文中是同义词,但在一般上下文中不是同义词2: 相关但不是同义词在注释过程中还使用了标签1(不相关)和x(跳过,例如,错误的语言),但是对使用这些标签进行了微不足道的注释,并从发布的语料库中丢弃了这些示例。

具有下列标志的同义词被注释为标签4的同义词:<: txt1比txt2更一般;txt2比txt1更具体(方向性同义词,txt2可以替换为txt1的所有上下文,但不能反过来)

: txt2比txt1更一般;txt1比txt2更具体(方向性同义词,txt1可以替换为txt2的所有上下文,但不能反过来)i: 细微的可追踪差异(在词法数或格上有区别,'this'与'that'等)s: 风格或强度差异(例如,意思等效,但其中一个陈述比另一个非常通俗)

对于标注为4标签之外的同义词,注释员有一个选择,即重写文本段,使重写的同义词对形成标签4(通用)同义词。这是用于将简单的编辑转换为上下文或方向性同义词转换为通用同义词的情况。对于重写的例子,都提供了原始和重写后的对,标注了相应的标签。

交际目标

表示具有相同含义但不同表面表达的文本段。

来源于不同来源

来源细节

电影和电视剧集字幕(82%)新闻文章(9%)讨论区留言(8%)大学的翻译练习(1%)大学的课程论文和考试(<1%)

语言数据

如何获得语言数据?

找到,其它

找到在哪里?

多个网站,离线媒体集合,其他

语言制作者

电影和电视剧字幕来自OPUS OpenSubtitles2018集合,该集合基于来自 OpenSubtitles 的数据.新闻文章是从芬兰的两个新闻网站YLE和HS收集的,时间范围是2017-2020年。讨论区邮件来自为学术用途发布的芬兰Suomi24讨论区( http://urn.fi/urn:nbn:fi:lb-2020021801 )。大学的翻译练习、论文和考试是在项目期间收集的。

数据验证

由数据策划员验证

数据是否经过筛选?

未筛选

结构化注释

是否有附加注释?

专家创建

评分人数

2<n<10

评分人员资格

TurkuNLP研究小组成员,芬兰语的母语者,每个注释者在语言学或与语言相关的领域拥有学位或正在进行相关领域的学习。

每个训练示例的评分人数

1

每个测试示例的评分人数

1

注释服务?

没有

注释值
  • 从两个相关文档中手动提取有趣的同义词。
  • 根据给定的注释方案,对每个提取到的同义词进行手动标注,例如,区分上下文和通用同义词,标记风格或强度差异等。
  • 任何质量控制?

    由另一个评分人验证

    质量控制细节

    部分双重注释,定期分配双重注释批次,以监测注释一致性。双重注释中,一个注释员首先提取候选同义词,并将这些候选同义词分配给两个不同的注释员,他们独立进行标签注释。然后,合并标签注释,并与整个注释团队一起解决冲突标签。

    同意

    是否有同意政策?

    同意政策细节

    该语料库主要基于公共/开放数据。对于其他数据源(学生材料),在收集期间与数据提供者达成了许可协议。

    私人识别信息(PII)

    是否包含PII?

    可能

    PII类别

    通用PII

    是否有PII识别?

    没有识别

    维护

    是否有维护计划?

    没有

    更广泛的社会背景

    对数据集社会影响的先前工作

    基于数据的模型的使用

    没有

    对服务不足社区的影响

    是否满足服务不足社区的需求?

    没有

    偏见讨论

    有记录的社会偏见?

    没有

    使用数据的注意事项

    PII风险和责任

    潜在的PII风险

    许可证

    数据集上的版权限制

    开放许可证-允许商业使用

    语言数据上的版权限制

    开放许可证-允许商业使用

    已知的技术限制