数据集:

nchlt

任务:

标记分类

子任务:

named-entity-recognition

语言:

language:nso

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-2.5

数据集介绍文件清单

英文

NCHLT 数据集卡片

数据集概要

为了继续推动自然语言处理领域的研究和发展，尤其是对于资源有限的语言，开发用于自然语言处理的语言资源非常重要。在本文中，我们描述了同时开发南非十种官方语言的多种语言资源的过程和挑战。该项目旨在建立一套基础资源，促进南非自然语言处理行业中资源和技术的进一步发展。项目开发工作包括创建单语无注释语料库，其中每种语言的语料库子集在标记了令牌、正字法、形态和形态句法层面上进行了注释。这些标记的子集包括开发集和测试集，并用于为每种语言创建五个核心技术，即令牌化器、句子分割器、词形还原器、词性标注器和形态分解器。我们报告了每种语言工具的质量，并提供了一些更多关于资源在南非背景下重要性的背景信息。

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

[需要更多信息]

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

验证原因

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划人

Martin.Puttkammer@nwu.ac.za

许可信息

[需要更多信息]

引用信息

@inproceedings{eiselen2014developing,
  title={Developing Text Resources for Ten South African Languages.},
  author={Eiselen, Roald and Puttkammer, Martin J},
  booktitle={LREC},
  pages={3698--3703},
  year={2014}
}

贡献

感谢 @Narsil 添加了此数据集。

作者:

佚名

数据集大小:

42.31 KB