数据集:
TurkuNLP/turku_paraphrase_corpus
该项目收集了一个大型的芬兰语释义对数据集(超过100,000个)。这些释义对经过手工选择和分类,以尽量减少词汇重复,并提供在结构和词汇上具有最大差异的示例。其目标是创建一个具有挑战性的数据集,更好地测试自然语言理解的能力。数据的一个重要特征是大多数释义对在其文档上下文中分布。该数据集的主要应用是深度语言模型的开发和评估,以及表示学习的应用。
使用说明:
from datasets import load_dataset dataset = load_dataset('TurkuNLP/turku_paraphrase_corpus', name="plain")
其中 name 是所支持的加载选项之一:plain,plain-context,classification,classification-context或generation。有关更多信息,请参阅数据字段。
芬兰语
[需要更多信息]
该数据集由文本段的对组成,其中一个典型的段落大约是一个句子长度,但是段落可能比句子长或短。因此,每个示例包括两个文本段(字符串),一个手动标注的标签以指示释义类型(字符串)和其他元数据。数据集包括三个不同的配置:plain,classification和generation。plain配置在没有任何额外预处理或转换的情况下加载原始数据,而classification配置直接构建适合训练释义分类器的数据形式,其中每个示例在数据中以不同的方向双倍(text1,text2,label)--〉(text2,text1,label,并在需要时处理标签翻转(具有方向性标志 < 或 > 的释义)。在generation配置中,示例经过预处理,以直接适用于释义生成任务。在此配置中,不适合生成的释义被丢弃(否定和高度上下文相关的释义),并且提供定向的释义,以便生成从更详细的段落到更一般的段落,以防止模型虚构(例如模型学会引入新信息)。其他释义以双向方式提供(text1,text2,label)--〉(text2,text1,label)。
plain和classification配置中的每对将包括字段:
id:释义对的标识符(字符串)
gem_id:GEM数据集中的释义对的标识符(字符串)
goeswith:从中提取释义的文档的标识符,如果释义的来源不是文档结构化数据,则可以为空。任何具有相同的非空值的goeswith的示例都应保留在任何训练/开发/测试拆分中;大多数用户不需要此字段(字符串)
fold:0-99,将数据分为100个部分,以尊重文档边界,您可以将其用于安全实现交叉验证,因为一个文档的所有释义都在一个fold中,大多数用户不需要此字段(int)
text1:第一个释义段(字符串)
text2:第二个释义段(字符串)
label:手动标注的标签(字符串)
binary_label:将标签转换为二进制,值为positive(释义)和negative(非释义)(字符串)
is_rewrite:指示示例是否为人工生成的重写或自然产生的释义(布尔值)
generation配置中的每对将包括相同的字段,只是将text1和text2重命名为input和output,以指示生成的方向。因此,字段为:id、gem_id、goeswith、fold、input、output、label、binary_label和is_rewrite
上下文:大多数(但不是全部)的释义对在其文档上下文中被标识。默认情况下,这些上下文未包含在内以节省内存,但可以使用plain-context和classification-context配置访问这些上下文。这些配置与plain和classification完全相同,但具有以下附加字段:
context1:一个带有字段doctext(字符串)、begin(int)、end(int)的字典。这意味着text1中的释义是从doctext[begin:end]中提取的。在大多数情况下,doctext[begin:end]和text1是完全相同的字符串,但在一些情况下,这并不是真的,例如在注释期间从text1中“清除”了插入的标点或其他不相关的文本。如果上下文不可用,则doctext为空字符串,beg==end==0
context2:与context1相同,但用于text2
[需要更多信息]
[需要更多信息]
[需要更多信息]
谁是源语言制片人?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]