数据集:
classla/setimes_sr
SETimes_sr训练语料库包含86,726个塞尔维亚语单词,手动进行了分词、句子分割、词性标注、词形归并、命名实体和依存句法的注释。
该数据集包含3177个训练样本,395个验证样本和319个测试样本,分别对应不同的数据集划分。每个样本代表一个句子,包括以下特征:句子ID('sent_id'),句子文本('text'),标记列表('tokens'),词形归并列表('lemmas'),MULTEXT-East标签列表('xpos_tags'),UPOS标签列表('upos_tags'),形态特征列表('feats'),IOB标签列表('iob_tags')和通用依存关系列表('uds')。
提供了三种数据集配置,分别是'ner','upos'和'ud',相应的特征已编码为类别标签。如果未指定配置,默认为'ner'。
如果您在研究中使用了此数据集,请引用以下论文:
@inproceedings{samardzic-etal-2017-universal, title = "{U}niversal {D}ependencies for {S}erbian in Comparison with {C}roatian and Other {S}lavic Languages", author = "Samard{\v{z}}i{\'c}, Tanja and Starovi{\'c}, Mirjana and Agi{\'c}, {\v{Z}}eljko and Ljube{\v{s}}i{\'c}, Nikola", booktitle = "Proceedings of the 6th Workshop on {B}alto-{S}lavic Natural Language Processing", month = apr, year = "2017", address = "Valencia, Spain", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W17-1407", doi = "10.18653/v1/W17-1407", pages = "39--44", }