数据集:
classla/ssj500k
数据集包含7432个训练样本,1164个验证样本和893个测试样本。每个样本表示一个句子,并包括以下特征:句子ID('sent_id'),标记列表('tokens'),词形列表('lemmas'),Multext-East标记列表('xpos_tags'),UPOS标记列表('upos_tags'),形态特征列表('feats'),IOB标记列表('iob_tags')和通用依赖标记列表('uds')。有三个可用的数据集配置,对应的特征被编码为类标签:'ner','upos'和'ud'。