数据集:

TurkuNLP/turku_paraphrase_corpus

英文

[数据集名称] 数据集卡片

数据集概要

该项目收集了一个大型的芬兰语释义对数据集(超过100,000个)。这些释义对经过手工选择和分类,以尽量减少词汇重复,并提供在结构和词汇上具有最大差异的示例。其目标是创建一个具有挑战性的数据集,更好地测试自然语言理解的能力。数据的一个重要特征是大多数释义对在其文档上下文中分布。该数据集的主要应用是深度语言模型的开发和评估,以及表示学习的应用。

使用说明:

  from datasets import load_dataset
  dataset = load_dataset('TurkuNLP/turku_paraphrase_corpus', name="plain")

其中 name 是所支持的加载选项之一:plain,plain-context,classification,classification-context或generation。有关更多信息,请参阅数据字段。

支持的任务和排行榜

  • 释义分类
  • 释义生成

语言

芬兰语

数据集结构

数据实例

[需要更多信息]

数据字段

该数据集由文本段的对组成,其中一个典型的段落大约是一个句子长度,但是段落可能比句子长或短。因此,每个示例包括两个文本段(字符串),一个手动标注的标签以指示释义类型(字符串)和其他元数据。数据集包括三个不同的配置:plain,classification和generation。plain配置在没有任何额外预处理或转换的情况下加载原始数据,而classification配置直接构建适合训练释义分类器的数据形式,其中每个示例在数据中以不同的方向双倍(text1,text2,label)--〉(text2,text1,label,并在需要时处理标签翻转(具有方向性标志 < 或 > 的释义)。在generation配置中,示例经过预处理,以直接适用于释义生成任务。在此配置中,不适合生成的释义被丢弃(否定和高度上下文相关的释义),并且提供定向的释义,以便生成从更详细的段落到更一般的段落,以防止模型虚构(例如模型学会引入新信息)。其他释义以双向方式提供(text1,text2,label)--〉(text2,text1,label)。

plain和classification配置中的每对将包括字段:

id:释义对的标识符(字符串)

gem_id:GEM数据集中的释义对的标识符(字符串)

goeswith:从中提取释义的文档的标识符,如果释义的来源不是文档结构化数据,则可以为空。任何具有相同的非空值的goeswith的示例都应保留在任何训练/开发/测试拆分中;大多数用户不需要此字段(字符串)

fold:0-99,将数据分为100个部分,以尊重文档边界,您可以将其用于安全实现交叉验证,因为一个文档的所有释义都在一个fold中,大多数用户不需要此字段(int)

text1:第一个释义段(字符串)

text2:第二个释义段(字符串)

label:手动标注的标签(字符串)

binary_label:将标签转换为二进制,值为positive(释义)和negative(非释义)(字符串)

is_rewrite:指示示例是否为人工生成的重写或自然产生的释义(布尔值)

generation配置中的每对将包括相同的字段,只是将text1和text2重命名为input和output,以指示生成的方向。因此,字段为:id、gem_id、goeswith、fold、input、output、label、binary_label和is_rewrite

上下文:大多数(但不是全部)的释义对在其文档上下文中被标识。默认情况下,这些上下文未包含在内以节省内存,但可以使用plain-context和classification-context配置访问这些上下文。这些配置与plain和classification完全相同,但具有以下附加字段:

context1:一个带有字段doctext(字符串)、begin(int)、end(int)的字典。这意味着text1中的释义是从doctext[begin:end]中提取的。在大多数情况下,doctext[begin:end]和text1是完全相同的字符串,但在一些情况下,这并不是真的,例如在注释期间从text1中“清除”了插入的标点或其他不相关的文本。如果上下文不可用,则doctext为空字符串,beg==end==0

context2:与context1相同,但用于text2

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言制片人?

[需要更多信息]

标注

标注过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集维护者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @jmnybl @fginter 添加了这个数据集。