数据集:

turkish_shrinked_ner

语言:

tr

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

expert-generated

批注创建人:

machine-generated

许可:

cc-by-4.0
英文

turkish_shrinked_ner 数据集卡片

数据集概述

turkish_ner 的缩小处理版本(48个实体类型)。

原始的 turkish_ner 数据集:使用大规模索引编制的、用于命名实体识别和文本分类的自动注释土耳其语语料库。构建的索引包含约30万个实体,属于25个不同领域下的成千上万个细粒度实体类型。

缩小的实体类型包括:academic(学术)、academic_person(学术人士)、aircraft(飞机)、album_person(专辑人物)、anatomy(解剖学)、animal(动物)、architect_person(建筑师)、capital(首都)、chemical(化学物质)、clothes(服装)、country(国家)、culture(文化)、currency(货币)、date(日期)、food(食物)、genre(风格)、government(政府)、government_person(政府人士)、language(语言)、location(位置)、material(材料)、measure(测量单位)、medical(医学)、military(军事)、military_person(军方人员)、nation(国家)、newspaper(报纸)、organization(组织)、organization_person(组织人士)、person(人物)、production_art_music(制作艺术音乐)、production_art_music_person(制作艺术音乐人士)、quantity(数量)、religion(宗教)、science(科学)、shape(形状)、ship(船只)、software(软件)、space(空间)、space_person(空间人士)、sport(运动)、sport_name(运动名称)、sport_person(运动人士)、structure(结构)、subject(主题)、tech(技术)、train(火车)、vehicle(车辆)

支持的任务和排行榜

[需要更多信息]

语言

土耳其语

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

只有训练集。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言的制作人?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Behcet Senturk

许可信息

知识共享署名4.0国际

引用信息

[需要更多信息]

贡献者

感谢 @bhctsntrk 添加了此数据集。