classla/reldi_hr | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

classla/reldi_hr

任务:

task_categories:other

子任务:

lemmatization named-entity-recognition part-of-speech

语言:

其他:

structure-prediction normalization tokenization

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

此数据集基于3,871条克罗地亚推文，将其分割为句子、标记，并用规范化形式、词形、MULTEXT-East标签（XPOS）、UPOS标签和形态特征以及命名实体进行了注释。

该数据集包含6339个训练样本（句子），815个验证样本和785个测试样本。每个样本代表一个句子，包括以下特征：句子ID（'sent_id'）、标记列表（'tokens'）、规范化标记列表（'norms'）、词形列表（'lemmas'）、UPOS标签列表（'upos_tags'）、MULTEXT-East标签列表（'xpos_tags'）、形态特征列表（'feats'）和命名实体IOB标签列表（'iob_tags'），其以类标签编码。

如果您在研究中使用这个数据集，请引用以下论文：

@article{Miličević_Ljubešić_2016,
title={Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets}, 
volume={4}, 
url={https://revije.ff.uni-lj.si/slovenscina2/article/view/7007}, 
DOI={10.4312/slo2.0.2016.2.156-188}, 
number={2}, 
journal={Slovenščina 2.0: empirical, applied and interdisciplinary research}, 
author={Miličević, Maja and Ljubešić, Nikola}, 
year={2016}, 
month={Sep.}, 
pages={156–188} }

作者:

classla

数据集大小:

814.66 KB