数据集:

kor_ner

语言:

ko

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original

许可:

mit
英文

KorNER数据集卡片

数据集简介

[需要更多信息]

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据示例

[需要更多信息]

数据字段

每行包括以下字段:

  • text: 原始文本
  • annot_text: 包含POS标记信息的注释文本
  • tokens: 原始文本中的有序标记列表
  • pos_tags: 每个标记的词性标签
  • ner_tags: 每个标记的命名实体识别标签

需要注意的是,设计上,tokens、pos_tags和ner_tags的长度始终相等。

pos_tags 对应以下列表:

['SO', 'SS', 'VV', 'XR', 'VCP', 'JC', 'VCN', 'JKB', 'MM', 'SP', 'XSN', 'SL', 'NNP', 'NP', 'EP', 'JKQ', 'IC', 'XSA', 'EC', 'EF', 'SE', 'XPN', 'ETN', 'SH', 'XSV', 'MAG', 'SW', 'ETM', 'JKO', 'NNB', 'MAJ', 'NNG', 'JKV', 'JKC', 'VA', 'NR', 'JKG', 'VX', 'SF', 'JX', 'JKS', 'SN']

ner_tags 对应以下标记:

["I", "O", "B_OG", "B_TI", "B_LC", "B_DT", "B_PS"]

前缀 B 表示短语的第一个单词,I 表示非初始单词。此外,OG 表示机构;TI 表示时间;DT 表示日期;PS 表示人名。

数据拆分

[需要更多信息]

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

语言生成者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献者

感谢 @jaketae 添加了这个数据集。