数据集:

psc

语言:

pl

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original
英文

数据集卡片:[数据集名称]

数据集概述

波兰摘要语料库包含新闻文章及其摘要。我们使用相同文章的摘要作为正样本,并从不同文章中抽样最相似的摘要作为负样本。

支持的任务和排行榜

[需要更多信息]

语言

波兰语

数据集结构

数据实例

[需要更多信息]

数据字段

  • extract_text:需要总结的文本
  • summary_text:文本的摘要
  • label:1表示摘要相似,0表示不相似

数据拆分

数据集分为训练集和测试集。测试集没有标签列,因此标签设置为-1。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-SA 3.0

引用信息

@inproceedings{ogro:kop:14:lrec,title={The {P}olish {S}ummaries {C}orpus},author={Ogrodniczuk, Maciej and Kope{'c}, Mateusz},booktitle = "Proceedings of the Ninth International {C}onference on {L}anguage {R}esources and {E}valuation, {LREC}~2014",year = "2014",}

贡献

感谢 @abecadel 添加此数据集。