数据集:
classla/reldi_sr
该数据集基于3748条塞尔维亚推文,这些推文被分割为句子、标记、并注释具有规范化形式、词元、MULTEXT-East标记(XPOS)、UPOS标记和形态特征、以及命名实体的数据集。
该数据集包含5462个训练样本(句子),711个验证样本和725个测试样本。每个样本代表一个句子,包括以下特征:句子ID('sent_id')、标记列表('tokens')、规范化标记列表('norms')、词元列表('lemmas')、UPOS标记列表('upos_tags')、MULTEXT-East标记列表('xpos_tags')、形态特征列表('feats')和命名实体IOB标记列表('iob_tags'),这些标记编码为类别标签。
如果您在研究中使用了此数据集,请引用以下论文:
@article{Miličević_Ljubešić_2016, title={Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets}, volume={4}, url={https://revije.ff.uni-lj.si/slovenscina2/article/view/7007}, DOI={10.4312/slo2.0.2016.2.156-188}, number={2}, journal={Slovenščina 2.0: empirical, applied and interdisciplinary research}, author={Miličević, Maja and Ljubešić, Nikola}, year={2016}, month={Sep.}, pages={156–188} }