数据集:

KBLab/sucx3_ner

英文

SUCX 3.0 - NER 数据集卡片

数据集摘要

该数据集是将古老的SUC 3.0数据集转换为huggingface生态系统的格式。原始数据集不包含官方的训练-开发-测试划分,本数据集在此基础上引入了划分;NER标签在三个划分之间的分布基本相同。

数据集有三种不同的标签集:手动注释的POS标签、手动注释的NER标签和自动注释的NER标签。对于自动注释的NER标签,只选择了自动注释和手动注释相匹配的句子(具有相应的类别)。

此外,我们还提供了相同数据的重排版,其中某些或所有句子转换为小写。

支持的任务和排行榜

  • 词性标注
  • 命名实体识别

语言

瑞典语

数据集结构

数据重排版

  • original_tags 包含手动注释的NER标签
    • lower 整个数据集小写
    • lower_mix 部分数据集小写
    • lower_both 每个实例分别大小写
  • simple_tags 包含自动注释的NER标签
    • lower 整个数据集小写
    • lower_mix 部分数据集小写
    • lower_both 每个实例分别大小写

数据实例

对于每个实例,都有一个id,可以选择添加"_lower"后缀表示已修改,一个包含标记的字符串列表的tokens,一个包含POS标记的字符串列表的pos_tags,和一个包含NER标记的字符串列表的ner_tags。

{"id": "e24d782c-e2475603_lower",
"tokens": ["-", "dels", "har", "vi", "inget", "index", "att", "g\u00e5", "efter", ",", "vi", "kr\u00e4ver", "allts\u00e5", "ers\u00e4ttning", "i", "40-talets", "penningv\u00e4rde", "."],
"pos_tags": ["MID", "KN", "VB", "PN", "DT", "NN", "IE", "VB", "PP", "MID", "PN", "VB", "AB", "NN", "PP", "NN", "NN", "MAD"],
"ner_tags": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]}

数据字段

  • id:包含句子ID的字符串
  • tokens:包含句子标记的字符串列表
  • pos_tags:包含标记的POS注释的字符串列表
  • ner_tags:包含标记的NER注释的字符串列表

数据划分

Dataset Split Size Percentage of Total Dataset Size Number of Instances for the Original Tags
train 64% 46,026
dev 16% 11,506
test 20% 14,383

由于需要匹配标签的要求,simple_tags重排版的实例较少。

数据集创建

请参阅 original webpage

额外信息

数据集维护者

Språkbanken

许可信息

CC BY 4.0(带归属)

引用信息

SUC 2.0 manual

贡献

感谢 @robinqrtz 添加此数据集。