数据集:

swedish_ner_corpus

语言:

sv

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0
英文

Swedish NER Corpus 数据集卡片

数据集摘要

来自 Spraakbanken 的 2012 年 Webnyheter,用于 CoreNLP 的瑞典命名实体识别(NER)的半手动注释和调整。在此情况下,半手动定义为:从瑞典名词词表中引导的,然后由两个独立的以瑞典语为母语的注释员进行手动修正/审核。没有计算注释员一致性。

支持的任务和排行榜

[需要更多信息]

语言

瑞典语

数据集结构

数据示例

下面提供了一个示例数据集实例:

{'id': '3',
 'ner_tags': [4, 4, 0, 0, 0, 0, 0, 0, 3, 3, 0],
 'tokens': ['Margaretha',
  'Fahlgren',
  ',',
  'professor',
  'i',
  'litteraturvetenskap',
  ',',
  'vice-rektor',
  'Uppsala',
  'universitet',
  '.']}

数据字段

  • id: 句子的id
  • token: 当前标记
  • ner_tag: 标记的NER标签

完整的字段:

{
  "id":{
    "feature_type":"Value"
      "dtype":"string"
      }
      "tokens":{
        "feature_type":"Sequence"
        "feature":{
        "feature_type":"Value"
        "dtype":"string"
        }
      }
    "ner_tags":{
      "feature_type":"Sequence"
        "dtype":"int32"
        "feature":{
        "feature_type":"ClassLabel"
          "dtype":"int32"
          "class_names":[
              0:"0"
              1:"LOC"
              2:"MISC"
              3:"ORG"
              4:"PER"
              ]
      }
  }
}

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

谁是源语言的制作者?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释员?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

原始数据集由 Språkbanken 提供,其中包含来自瑞典报纸网站的新闻。

许可信息

https://github.com/klintan/swedish-ner-corpus/blob/master/LICENSE

引用信息

[需要更多信息]

贡献

感谢 @abhishekkrthakur 添加此数据集。