数据集:

NbAiLab/norec_agg

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2011.02686

许可:

cc-by-4.0
英文

创建数据集卡片指南

数据集概述

Aggregated NoRec_fine:挪威细粒度情感数据集。该数据集由北欧语言处理实验室通过聚合NoReC_fine中的细粒度注释并删除具有冲突或无情感的句子创建。

支持的任务和排行榜

[需要更多信息]

语言

数据集中的文本为挪威语。

数据集结构

数据实例

数据集中的一个实例示例。

{'label': 0, 'text': 'Verre er det med slagsmålene .'}

数据字段

  • id:示例的索引
  • text:句子的文本
  • label:情感标签。这里
    • 0 = negative
    • 1 = positive

数据拆分

数据集分为训练集、验证集和测试集,大小如下:

Tain Valid Test
Number of examples 2675 516 417

数据集创建

此数据集主要基于L. Øvrelid、P. Mæhlum、J. Barnes和E. Velldal在LREC 2020上接受的论文"A Fine-Grained Sentiment Dataset for Norwegian"中描述的原始数据,但我们已经对另外3476个句子进行了注释,增加了数据集的总体大小和范围。

其他信息

许可信息

本作品采用知识共享署名4.0国际许可协议

引用信息

@misc{sheng2020investigating,
      title={Investigating Societal Biases in a Poetry Composition System},
      author={Emily Sheng and David Uthus},
      year={2020},
      eprint={2011.02686},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}