数据集:
setswana_ner_corpus
任务:
标记分类语言:
tn计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
otherSetswana Ner Corpus 是由 The Centre for Text Technology (CTexT), North-West University, South Africa 开发的 Setswana 数据集。该数据集基于南非政府领域的文档,并从 gov.za 网站中获取。它是为了支持 Setswana 语言的命名实体识别任务而创建的。该数据集使用 CoNLL 共享任务的注释标准。
[需要更多信息]
支持的语言是 Setswana。
数据点由空行分隔的句子和制表符分隔的标记和标签组成。
{'id': '0', 'ner_tags': [0, 0, 0, 0, 0], 'tokens': ['Ka', 'dinako', 'dingwe', ',', 'go'] }
命名实体识别标签对应以下列表:
"OUT", "B-PERS", "I-PERS", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", "I-MISC",
命名实体识别标签的格式与 CoNLL 共享任务中的格式相同:B 表示短语的第一个单词,I 表示非初始单词。有四种类型的短语:人名(PER),组织机构(ORG),地点(LOC)和其他名称(MISC)。 (OUT) 用于不被视为命名实体的标记。
数据未进行拆分。
该数据集的创建是为了帮助引入新语言 - 西茨瓦纳语的资源。
[需要更多信息]
数据基于南非政府领域,并从 gov.za 网站抓取。
[需要更多信息]
源语言制作人是谁?数据由南非政府网站的撰写者 - gov.za 制作。
[需要更多信息]
[需要更多信息]
标注者是谁?数据在 NCHLT 文本资源开发项目期间进行了注释。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
带注释的数据集由 Centre for Text Technology (CTexT)(南非西北大学)开发。
参见: more information
数据属于 Creative Commons Attribution 2.5 South Africa License
@inproceedings{sepedi_ner_corpus, author = {S.S.B.M. Phakedi and Roald Eiselen}, title = {NCHLT Setswana Named Entity Annotated Corpus}, booktitle = {Eiselen, R. 2016. Government domain named entity recognition for South African languages. Proceedings of the 10th Language Resource and Evaluation Conference, Portorož, Slovenia.}, year = {2016}, url = {https://repo.sadilar.org/handle/20.500.12185/341}, }
感谢 @yvonnegitau 添加了该数据集。