classla/reldi_sr | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

classla/reldi_sr

任务:

task_categories:other

子任务:

lemmatization named-entity-recognition part-of-speech

语言:

其他:

structure-prediction normalization tokenization

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

该数据集基于3748条塞尔维亚推文，这些推文被分割为句子、标记、并注释具有规范化形式、词元、MULTEXT-East标记（XPOS）、UPOS标记和形态特征、以及命名实体的数据集。

该数据集包含5462个训练样本（句子），711个验证样本和725个测试样本。每个样本代表一个句子，包括以下特征：句子ID（'sent_id'）、标记列表（'tokens'）、规范化标记列表（'norms'）、词元列表（'lemmas'）、UPOS标记列表（'upos_tags'）、MULTEXT-East标记列表（'xpos_tags'）、形态特征列表（'feats'）和命名实体IOB标记列表（'iob_tags'），这些标记编码为类别标签。

如果您在研究中使用了此数据集，请引用以下论文：

@article{Miličević_Ljubešić_2016,
title={Tviterasi, tviteraši or twitteraši? Producing and analysing a normalised dataset of Croatian and Serbian tweets}, 
volume={4}, 
url={https://revije.ff.uni-lj.si/slovenscina2/article/view/7007}, 
DOI={10.4312/slo2.0.2016.2.156-188}, 
number={2}, 
journal={Slovenščina 2.0: empirical, applied and interdisciplinary research}, 
author={Miličević, Maja and Ljubešić, Nikola}, 
year={2016}, 
month={Sep.}, 
pages={156–188} }

作者:

classla

数据集大小:

808.53 KB