英文

此数据集基于3,871条克罗地亚推文,将其分割为句子、标记,并用规范化形式、词形、MULTEXT-East标签(XPOS)、UPOS标签和形态特征以及命名实体进行了注释。

该数据集包含6339个训练样本(句子),815个验证样本和785个测试样本。每个样本代表一个句子,包括以下特征:句子ID('sent_id')、标记列表('tokens')、规范化标记列表('norms')、词形列表('lemmas')、UPOS标签列表('upos_tags')、MULTEXT-East标签列表('xpos_tags')、形态特征列表('feats')和命名实体IOB标签列表('iob_tags'),其以类标签编码。

如果您在研究中使用这个数据集,请引用以下论文:

@article{Miličević_Ljubešić_2016,
title={Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets}, 
volume={4}, 
url={https://revije.ff.uni-lj.si/slovenscina2/article/view/7007}, 
DOI={10.4312/slo2.0.2016.2.156-188}, 
number={2}, 
journal={Slovenščina 2.0: empirical, applied and interdisciplinary research}, 
author={Miličević, Maja and Ljubešić, Nikola}, 
year={2016}, 
month={Sep.}, 
pages={156–188} }