数据集:

ju-bezdek/conll2003-SK-NER

英文

数据集卡片:[数据集名称]

数据集描述

这是原始CONLL2003数据集的翻译版本(通过Google翻译从英文翻译成斯洛伐克语)。大部分注释是通过单词匹配脚本自动完成的。其中一些标签无法匹配的记录进行了手动注释(10%)。与原始的Conll2003数据集不同,这个数据集只包含NER标签。

支持的任务和排行榜

NER

标签:

  • 0:O
  • 1:B-PER
  • 2:I-PER
  • 3:B-ORG
  • 4:I-ORG
  • 5:B-LOC
  • 6:I-LOC
  • 7:B-MISC
  • 8:I-MISC

语言

sk

数据集结构

数据拆分

训练集,测试集,验证集

数据集创建

源数据

https://huggingface.co/datasets/conll2003

注释

注释过程
  • 机器翻译
  • 机器使用反向翻译配对标签,并采用硬编码规则(包括短语正则匹配等)
  • 手动注释无法自动匹配的记录