数据集:

turkish_ner

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

expert-generated

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:1702.02363

许可:

cc-by-4.0

数据集介绍文件清单

英文

turkish_ner 数据集卡片

数据集摘要

使用大规模词表对土耳其自动标注的命名实体识别和文本分类语料库。构建的词表包含大约30万个实体，涵盖了25个不同领域的数千个细粒度实体类型。

支持的任务和排行榜

[需要更多信息]

语言

土耳其语

数据集结构

数据示例

[需要更多信息]

数据字段

[需要更多信息]

数据集划分

只有训练集。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和归一化

[需要更多信息]

谁是源语言制作者？

[需要更多信息]

注释

标注过程

[需要更多信息]

标注者是谁？

[需要更多信息]

个人信息和敏感信息

[需要更多信息]

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

H. Bahadir Sahin, Caglar Tirkaz, Eray Yildiz, Mustafa Tolga Eren和Omer Ozan Sonmez

许可信息

Creative Commons Attribution 4.0 International

引用信息

@InProceedings@article{DBLP:journals/corr/SahinTYES17, author = {H. Bahadir Sahin and Caglar Tirkaz and Eray Yildiz and Mustafa Tolga Eren and Omer Ozan Sonmez}, title = {Automatically Annotated Turkish Corpus for Named Entity Recognition and Text Categorization using Large-Scale Gazetteers}, journal = {CoRR}, volume = {abs/1702.02363}, year = {2017}, url = { http://arxiv.org/abs/1702.02363} , archivePrefix = {arXiv}, eprint = {1702.02363}, timestamp = {Mon, 13 Aug 2018 16:46:36 +0200}, biburl = { https://dblp.org/rec/journals/corr/SahinTYES17.bib} , bibsource = {dblp computer science bibliography, https://dblp.org} }

贡献

感谢 @merveenoyan 添加了此数据集。

作者:

佚名

数据集大小:

15.16 KB