数据集:

setswana_ner_corpus

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

other

数据集介绍文件清单

英文

Setswana NER Corpus 数据集卡片

数据集概述

Setswana Ner Corpus 是由 The Centre for Text Technology (CTexT), North-West University, South Africa 开发的 Setswana 数据集。该数据集基于南非政府领域的文档，并从 gov.za 网站中获取。它是为了支持 Setswana 语言的命名实体识别任务而创建的。该数据集使用 CoNLL 共享任务的注释标准。

支持的任务和排行榜

[需要更多信息]

语言

支持的语言是 Setswana。

数据集结构

数据实例

数据点由空行分隔的句子和制表符分隔的标记和标签组成。

{'id': '0',
 'ner_tags': [0, 0, 0, 0, 0],
 'tokens': ['Ka', 'dinako', 'dingwe', ',', 'go']
}

数据字段

id：样本的ID
tokens：示例文本的标记
ner_tags：每个标记的命名实体识别标签

命名实体识别标签对应以下列表：

"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC",

命名实体识别标签的格式与 CoNLL 共享任务中的格式相同：B 表示短语的第一个单词，I 表示非初始单词。有四种类型的短语：人名（PER），组织机构（ORG），地点（LOC）和其他名称（MISC）。 (OUT) 用于不被视为命名实体的标记。

数据拆分

数据未进行拆分。

数据集创建

策划理由

该数据集的创建是为了帮助引入新语言 - 西茨瓦纳语的资源。

[需要更多信息]

源数据

初始数据收集与规范化

数据基于南非政府领域，并从 gov.za 网站抓取。

[需要更多信息]

源语言制作人是谁？

数据由南非政府网站的撰写者 - gov.za 制作。

[需要更多信息]

注释

注释过程

[需要更多信息]

标注者是谁？

数据在 NCHLT 文本资源开发项目期间进行了注释。

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

带注释的数据集由 Centre for Text Technology (CTexT)（南非西北大学）开发。

参见： more information

授权信息

数据属于 Creative Commons Attribution 2.5 South Africa License

引用信息

@inproceedings{sepedi_ner_corpus,
  author    = {S.S.B.M. Phakedi and
              Roald Eiselen},
  title     = {NCHLT Setswana Named Entity Annotated Corpus},
  booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th      Language Resource and Evaluation Conference, Portorož, Slovenia.},
  year      = {2016},
  url       = {https://repo.sadilar.org/handle/20.500.12185/341},
}

贡献者

感谢 @yvonnegitau 添加了该数据集。

作者:

佚名

数据集大小:

13.04 KB