英文

该数据集基于3748条塞尔维亚推文,这些推文被分割为句子、标记、并注释具有规范化形式、词元、MULTEXT-East标记(XPOS)、UPOS标记和形态特征、以及命名实体的数据集。

该数据集包含5462个训练样本(句子),711个验证样本和725个测试样本。每个样本代表一个句子,包括以下特征:句子ID('sent_id')、标记列表('tokens')、规范化标记列表('norms')、词元列表('lemmas')、UPOS标记列表('upos_tags')、MULTEXT-East标记列表('xpos_tags')、形态特征列表('feats')和命名实体IOB标记列表('iob_tags'),这些标记编码为类别标签。

如果您在研究中使用了此数据集,请引用以下论文:

@article{Miličević_Ljubešić_2016,
title={Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets}, 
volume={4}, 
url={https://revije.ff.uni-lj.si/slovenscina2/article/view/7007}, 
DOI={10.4312/slo2.0.2016.2.156-188}, 
number={2}, 
journal={Slovenščina 2.0: empirical, applied and interdisciplinary research}, 
author={Miličević, Maja and Ljubešić, Nikola}, 
year={2016}, 
month={Sep.}, 
pages={156–188} }