数据集:
nchlt
任务:
标记分类计算机处理:
multilingual大小:
1K<n<10K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
cc-by-2.5为了继续推动自然语言处理领域的研究和发展,尤其是对于资源有限的语言,开发用于自然语言处理的语言资源非常重要。在本文中,我们描述了同时开发南非十种官方语言的多种语言资源的过程和挑战。该项目旨在建立一套基础资源,促进南非自然语言处理行业中资源和技术的进一步发展。项目开发工作包括创建单语无注释语料库,其中每种语言的语料库子集在标记了令牌、正字法、形态和形态句法层面上进行了注释。这些标记的子集包括开发集和测试集,并用于为每种语言创建五个核心技术,即令牌化器、句子分割器、词形还原器、词性标注器和形态分解器。我们报告了每种语言工具的质量,并提供了一些更多关于资源在南非背景下重要性的背景信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
初始数据收集和标准化[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Martin.Puttkammer@nwu.ac.za
[需要更多信息]
@inproceedings{eiselen2014developing, title={Developing Text Resources for Ten South African Languages.}, author={Eiselen, Roald and Puttkammer, Martin J}, booktitle={LREC}, pages={3698--3703}, year={2014} }
感谢 @Narsil 添加了此数据集。