数据集:

NbAiLab/norec_agg

任务:

文本分类

子任务:

sentiment-classification

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2011.02686

许可:

cc-by-4.0

数据集介绍文件清单

英文

创建数据集卡片指南

数据集概述

Aggregated NoRec_fine：挪威细粒度情感数据集。该数据集由北欧语言处理实验室通过聚合NoReC_fine中的细粒度注释并删除具有冲突或无情感的句子创建。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本为挪威语。

数据集结构

数据实例

数据集中的一个实例示例。

{'label': 0, 'text': 'Verre er det med slagsmålene .'}

数据字段

id：示例的索引
text：句子的文本
label：情感标签。这里
- 0 = negative
- 1 = positive

数据拆分

数据集分为训练集、验证集和测试集，大小如下：

Tain	Valid	Test
Number of examples	2675	516	417

数据集创建

此数据集主要基于L. Øvrelid、P. Mæhlum、J. Barnes和E. Velldal在LREC 2020上接受的论文"A Fine-Grained Sentiment Dataset for Norwegian"中描述的原始数据，但我们已经对另外3476个句子进行了注释，增加了数据集的总体大小和范围。

其他信息

许可信息

本作品采用知识共享署名4.0国际许可协议

引用信息

@misc{sheng2020investigating,
      title={Investigating Societal Biases in a Poetry Composition System},
      author={Emily Sheng and David Uthus},
      year={2020},
      eprint={2011.02686},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

作者:

NbAiLab

数据集大小:

10.56 KB