数据集:

setswana_ner_corpus

语言:

tn

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

Setswana NER Corpus 数据集卡片

数据集概述

Setswana Ner Corpus 是由 The Centre for Text Technology (CTexT), North-West University, South Africa 开发的 Setswana 数据集。该数据集基于南非政府领域的文档,并从 gov.za 网站中获取。它是为了支持 Setswana 语言的命名实体识别任务而创建的。该数据集使用 CoNLL 共享任务的注释标准。

支持的任务和排行榜

[需要更多信息]

语言

支持的语言是 Setswana。

数据集结构

数据实例

数据点由空行分隔的句子和制表符分隔的标记和标签组成。

{'id': '0',
 'ner_tags': [0, 0, 0, 0, 0],
 'tokens': ['Ka', 'dinako', 'dingwe', ',', 'go']
}

数据字段

  • id:样本的ID
  • tokens:示例文本的标记
  • ner_tags:每个标记的命名实体识别标签

命名实体识别标签对应以下列表:

"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC",

命名实体识别标签的格式与 CoNLL 共享任务中的格式相同:B 表示短语的第一个单词,I 表示非初始单词。有四种类型的短语:人名(PER),组织机构(ORG),地点(LOC)和其他名称(MISC)。 (OUT) 用于不被视为命名实体的标记。

数据拆分

数据未进行拆分。

数据集创建

策划理由

该数据集的创建是为了帮助引入新语言 - 西茨瓦纳语的资源。

[需要更多信息]

源数据

初始数据收集与规范化

数据基于南非政府领域,并从 gov.za 网站抓取。

[需要更多信息]

源语言制作人是谁?

数据由南非政府网站的撰写者 - gov.za 制作。

[需要更多信息]

注释

注释过程

[需要更多信息]

标注者是谁?

数据在 NCHLT 文本资源开发项目期间进行了注释。

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

带注释的数据集由 Centre for Text Technology (CTexT)(南非西北大学)开发。

参见: more information

授权信息

数据属于 Creative Commons Attribution 2.5 South Africa License

引用信息

@inproceedings{sepedi_ner_corpus,
  author    = {S.S.B.M. Phakedi and
              Roald Eiselen},
  title     = {NCHLT Setswana Named Entity Annotated Corpus},
  booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th      Language Resource and Evaluation Conference, Portorož, Slovenia.},
  year      = {2016},
  url       = {https://repo.sadilar.org/handle/20.500.12185/341},
}

贡献者

感谢 @yvonnegitau 添加了该数据集。