数据集:

KBLab/sucx3_ner

任务:

task_categories:other

子任务:

named-entity-recognition part-of-speech

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original

其他:

structure-prediction

许可:

cc-by-4.0

数据集介绍文件清单

英文

SUCX 3.0 - NER 数据集卡片

数据集摘要

该数据集是将古老的SUC 3.0数据集转换为huggingface生态系统的格式。原始数据集不包含官方的训练-开发-测试划分，本数据集在此基础上引入了划分；NER标签在三个划分之间的分布基本相同。

数据集有三种不同的标签集：手动注释的POS标签、手动注释的NER标签和自动注释的NER标签。对于自动注释的NER标签，只选择了自动注释和手动注释相匹配的句子（具有相应的类别）。

此外，我们还提供了相同数据的重排版，其中某些或所有句子转换为小写。

支持的任务和排行榜

词性标注
命名实体识别

语言

瑞典语

数据集结构

数据重排版

original_tags 包含手动注释的NER标签
- lower 整个数据集小写
- lower_mix 部分数据集小写
- lower_both 每个实例分别大小写
simple_tags 包含自动注释的NER标签
- lower 整个数据集小写
- lower_mix 部分数据集小写
- lower_both 每个实例分别大小写

数据实例

对于每个实例，都有一个id，可以选择添加"_lower"后缀表示已修改，一个包含标记的字符串列表的tokens，一个包含POS标记的字符串列表的pos_tags，和一个包含NER标记的字符串列表的ner_tags。

{"id": "e24d782c-e2475603_lower",
"tokens": ["-", "dels", "har", "vi", "inget", "index", "att", "g\u00e5", "efter", ",", "vi", "kr\u00e4ver", "allts\u00e5", "ers\u00e4ttning", "i", "40-talets", "penningv\u00e4rde", "."],
"pos_tags": ["MID", "KN", "VB", "PN", "DT", "NN", "IE", "VB", "PP", "MID", "PN", "VB", "AB", "NN", "PP", "NN", "NN", "MAD"],
"ner_tags": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]}

数据字段

id：包含句子ID的字符串
tokens：包含句子标记的字符串列表
pos_tags：包含标记的POS注释的字符串列表
ner_tags：包含标记的NER注释的字符串列表

数据划分

Dataset Split	Size Percentage of Total Dataset Size	Number of Instances for the Original Tags
train	64%	46,026
dev	16%	11,506
test	20%	14,383

由于需要匹配标签的要求，simple_tags重排版的实例较少。

数据集创建

请参阅 original webpage

额外信息

数据集维护者

Språkbanken

许可信息

CC BY 4.0（带归属）

引用信息

SUC 2.0 manual

贡献

感谢 @robinqrtz 添加此数据集。

作者:

KBLab

数据集大小:

32.53 MB