数据集:
classla/reldi_hr
此数据集基于3,871条克罗地亚推文,将其分割为句子、标记,并用规范化形式、词形、MULTEXT-East标签(XPOS)、UPOS标签和形态特征以及命名实体进行了注释。
该数据集包含6339个训练样本(句子),815个验证样本和785个测试样本。每个样本代表一个句子,包括以下特征:句子ID('sent_id')、标记列表('tokens')、规范化标记列表('norms')、词形列表('lemmas')、UPOS标签列表('upos_tags')、MULTEXT-East标签列表('xpos_tags')、形态特征列表('feats')和命名实体IOB标签列表('iob_tags'),其以类标签编码。
如果您在研究中使用这个数据集,请引用以下论文:
@article{Miličević_Ljubešić_2016, title={Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets}, volume={4}, url={https://revije.ff.uni-lj.si/slovenscina2/article/view/7007}, DOI={10.4312/slo2.0.2016.2.156-188}, number={2}, journal={Slovenščina 2.0: empirical, applied and interdisciplinary research}, author={Miličević, Maja and Ljubešić, Nikola}, year={2016}, month={Sep.}, pages={156–188} }