classla/setimes_sr | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

classla/setimes_sr

任务:

task_categories:other

子任务:

lemmatization named-entity-recognition part-of-speech

语言:

其他:

structure-prediction normalization tokenization

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

SETimes_sr训练语料库包含86,726个塞尔维亚语单词，手动进行了分词、句子分割、词性标注、词形归并、命名实体和依存句法的注释。

该数据集包含3177个训练样本，395个验证样本和319个测试样本，分别对应不同的数据集划分。每个样本代表一个句子，包括以下特征：句子ID（'sent_id'），句子文本（'text'），标记列表（'tokens'），词形归并列表（'lemmas'），MULTEXT-East标签列表（'xpos_tags'），UPOS标签列表（'upos_tags'），形态特征列表（'feats'），IOB标签列表（'iob_tags'）和通用依存关系列表（'uds'）。

提供了三种数据集配置，分别是'ner'，'upos'和'ud'，相应的特征已编码为类别标签。如果未指定配置，默认为'ner'。

如果您在研究中使用了此数据集，请引用以下论文：

@inproceedings{samardzic-etal-2017-universal,
    title = "{U}niversal {D}ependencies for {S}erbian in Comparison with {C}roatian and Other {S}lavic Languages",
    author = "Samard{\v{z}}i{\'c}, Tanja  and
      Starovi{\'c}, Mirjana  and
      Agi{\'c}, {\v{Z}}eljko  and
      Ljube{\v{s}}i{\'c}, Nikola",
    booktitle = "Proceedings of the 6th Workshop on {B}alto-{S}lavic Natural Language Processing",
    month = apr,
    year = "2017",
    address = "Valencia, Spain",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-1407",
    doi = "10.18653/v1/W17-1407",
    pages = "39--44",
}

作者:

classla

数据集大小:

1.72 MB