英文

SETimes_sr训练语料库包含86,726个塞尔维亚语单词,手动进行了分词、句子分割、词性标注、词形归并、命名实体和依存句法的注释。

该数据集包含3177个训练样本,395个验证样本和319个测试样本,分别对应不同的数据集划分。每个样本代表一个句子,包括以下特征:句子ID('sent_id'),句子文本('text'),标记列表('tokens'),词形归并列表('lemmas'),MULTEXT-East标签列表('xpos_tags'),UPOS标签列表('upos_tags'),形态特征列表('feats'),IOB标签列表('iob_tags')和通用依存关系列表('uds')。

提供了三种数据集配置,分别是'ner','upos'和'ud',相应的特征已编码为类别标签。如果未指定配置,默认为'ner'。

如果您在研究中使用了此数据集,请引用以下论文:

@inproceedings{samardzic-etal-2017-universal,
    title = "{U}niversal {D}ependencies for {S}erbian in Comparison with {C}roatian and Other {S}lavic Languages",
    author = "Samard{\v{z}}i{\'c}, Tanja  and
      Starovi{\'c}, Mirjana  and
      Agi{\'c}, {\v{Z}}eljko  and
      Ljube{\v{s}}i{\'c}, Nikola",
    booktitle = "Proceedings of the 6th Workshop on {B}alto-{S}lavic Natural Language Processing",
    month = apr,
    year = "2017",
    address = "Valencia, Spain",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-1407",
    doi = "10.18653/v1/W17-1407",
    pages = "39--44",
}