数据集:

wrbsc

语言:

pl

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

wrbsc 数据集卡片

数据集摘要

WUT Relations Between Sentences Corpus(WUT句子之间关系语料库)包含2827对相关句子。这些关系来源于跨文档结构理论(CST),通过识别一组相关文档中的跨文档修辞关系,实现多文档摘要。每个关系由至少3个标注者标记。

支持的任务和排行榜

[ 需要更多信息 ]

语言

波兰语

数据集结构

数据实例

一个示例包含两个相关的句子和表示这些句子之间关系类型的类。

{'relationship': 0,
 'sentence1': 'Znajdujące się w Biurze Bezpieczeństwa Narodowego akta Komisji Weryfikacyjnej WSI zostały przewiezione do siedziby Służby Kontrwywiadu Wojskowego.',
 'sentence2': '2008-07-03: Wywiezienie akt dotyczących WSI – sprawa dla prokuratury?'}

数据字段

  • sentence1: 被比较的第一个句子 ( string )
  • sentence2: 被比较的第二个句子 ( string )
  • relationship: 这些句子之间的关系类型。可以是下列16个类别之一:
    • Krzyżowanie_się: 交叉
    • Tło_historyczne: 历史背景
    • Źródło: 来源
    • Dalsze_informacje: 附加信息
    • Zawieranie: 包含
    • Opis: 描述
    • Uszczegółowienie: 进一步详细信息
    • Parafraza: 改写
    • Spełnienie: 实现
    • Mowa_zależna: 被动语态
    • Zmiana_poglądu: 观点改变
    • Streszczenie: 概述
    • Tożsamość: 相同
    • Sprzeczność: 冲突
    • Modalność: 情态
    • Cytowanie: 引用

数据拆分

单一训练集划分

数据集创建

策划理由

[ 需要更多信息 ]

来源数据

初始数据收集和规范化

[ 需要更多信息 ]

谁是源语言的提供者?

[ 需要更多信息 ]

注释

注释过程

[ 需要更多信息 ]

注释者是谁?

[ 需要更多信息 ]

个人隐私信息

[ 需要更多信息 ]

使用数据的注意事项

数据的社会影响

[ 需要更多信息 ]

偏见讨论

[ 需要更多信息 ]

其他已知限制

[ 需要更多信息 ]

其他信息

数据集策划者

[ 需要更多信息 ]

许可信息

Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)

引用信息

@misc{11321/305,	
 title = {{WUT} Relations Between Sentences Corpus},	
 author = {Oleksy, Marcin and Fikus, Dominika and Wolski, Micha{\l} and Podbielska, Ma{\l}gorzata and Turek, Agnieszka and Kędzia, Pawe{\l}},	
 url = {http://hdl.handle.net/11321/305},	
 note = {{CLARIN}-{PL} digital repository},	
 copyright = {Attribution-{ShareAlike} 3.0 Unported ({CC} {BY}-{SA} 3.0)},	
 year = {2016}	
}

贡献者

感谢 @kldarek 添加了此数据集。