数据集:

allegro/klej-psc

语言:

pl

计算机处理:

monolingual

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original
英文

klej-psc

简介

波兰总结语料库(PSC)是包含569篇新闻文章摘要的数据集。人工标注员通过选择原始文本的约5%来为每篇文章创建出五个摘录型摘要。每个摘要都由不同的标注员创建。这个子集中的154篇文章还补充了每篇文章的五个抽象摘要,即不使用原始文章的片段创建的摘要。在这个数据集的Huggingface版本中,同一篇文章的摘要被用作正样例,不同文章的最相似摘要被采样作为负样例。

任务(输入、输出和指标)

任务是预测提取的文本和摘要是否相似。

基于PSC,我们提出了一个文本相似性任务。我们仅使用那些具有摘录型和抽象型摘要的新闻文章来生成正样例(即指同一篇文章)。我们将每个摘录型摘要与同一篇文章中最不相似的两个抽象型摘要匹配。为创建负样例,我们采用类似的方法。我们为每个摘录型摘要找到最相似的两个抽象型摘要,但来自不同的文章。

输入('extract_text','summary_text'列):提取文本和摘要文本句子

输出('label'列):标签:1表示摘要相似,0表示不相似

领域:新闻文章

测量:F1-Score

示例:

输入:关于洪水的神话是古老的,可以追溯到冰川消融的时代。由于这一事件对地球历史的影响,海洋和海洋的水位上升了几十米。冰川后洪水确实发生过,但很可能被人类所忽视。这里又有另一个关于这件事的注解。它的作者是美国地球物理学家。 ; 两位美国地球物理学家提出了他们关于洪水神话起源的设想。7500年前,由于冰川融化,地中海的水涌入了仍然是湖泊的黑海。地球物理学家声称,这使农业繁荣起来,因为人们不得不迁徙并传播农业生活方式。然而,科学界认为洪水只是农业扩张的一个因素。

输出:1(摘要相似)

数据拆分

Subset Cardinality
train 4302
val 0
test 1078

类别分布

Class train validation test
not similar 0.705 - 0.696
similar 0.295 - 0.304

引用

@inproceedings{ogro:kop:14:lrec,
title={The {P}olish {S}ummaries {C}orpus},
author={Ogrodniczuk, Maciej and Kope{'c}, Mateusz},
booktitle = "Proceedings of the Ninth International {C}onference on {L}anguage {R}esources and {E}valuation, {LREC}~2014",
year = "2014",
}

许可证

Creative Commons Attribution ShareAlike 3.0 licence (CC-BY-SA 3.0)

链接

HuggingFace

Source

Paper

示例

加载

from pprint import pprint

from datasets import load_dataset

dataset = load_dataset("allegro/klej-psc")
pprint(dataset['train'][100])

#{'extract_text': 'Nowe prawo energetyczne jest zagrożeniem dla  małych '
#                 'producentów energii ze źródeł odnawialnych. Sytuacja się '
#                 'pogarsza wdobie urynkowienia energii. zniosło preferencje '
#                 'wprowadzone dla energetyki wodnej. UE zamierza podwoić '
#                 'udział takich źródeł energetyki jak woda, wiatr, słońce do '
#                 '2010 r.W Polsce 1-1,5 proc. zużycia energii wytwarza się ze '
#                 'źródeł odnawialnych. W krajach Unii udział ten wynosi '
#                 'średnio 5,6 proc.',
# 'label': 1,
# 'summary_text': 'W Polsce w niewielkim stopniu wykorzystuje się elektrownie '
#                 'wodne oraz inne sposoby tworzenia energii ze źródeł '
#                 'odnawialnych. Podczas gdy w innych krajach europejskich jest '
#                 'to średnio 5,6 % w Polsce jest to 1-1,5 %. Powodem jest '
#                 'niska opłacalność posiadania tego typu elektrowni-zakład '
#                 'energetyczny płaci ok. 17 gr. za 1kWh, podczas gdy '
#                 'wybudowanie takiej elektrowni kosztuje ok. 100 tyś. zł.'}

评估

import random
from pprint import pprint

from datasets import load_dataset, load_metric

dataset = load_dataset("allegro/klej-psc")
dataset = dataset.class_encode_column("label")
references = dataset["test"]["label"]

# generate random predictions
predictions = [random.randrange(max(references) + 1) for _ in range(len(references))]

acc = load_metric("accuracy")
f1 = load_metric("f1")

acc_score = acc.compute(predictions=predictions, references=references)
f1_score = f1.compute(predictions=predictions, references=references, average="macro")

pprint(acc_score)
pprint(f1_score)

# {'accuracy': 0.18588469184890655}
# {'f1': 0.17511412402843068}