数据集:
KBLab/sucx3_ner
该数据集是将古老的SUC 3.0数据集转换为huggingface生态系统的格式。原始数据集不包含官方的训练-开发-测试划分,本数据集在此基础上引入了划分;NER标签在三个划分之间的分布基本相同。
数据集有三种不同的标签集:手动注释的POS标签、手动注释的NER标签和自动注释的NER标签。对于自动注释的NER标签,只选择了自动注释和手动注释相匹配的句子(具有相应的类别)。
此外,我们还提供了相同数据的重排版,其中某些或所有句子转换为小写。
瑞典语
对于每个实例,都有一个id,可以选择添加"_lower"后缀表示已修改,一个包含标记的字符串列表的tokens,一个包含POS标记的字符串列表的pos_tags,和一个包含NER标记的字符串列表的ner_tags。
{"id": "e24d782c-e2475603_lower", "tokens": ["-", "dels", "har", "vi", "inget", "index", "att", "g\u00e5", "efter", ",", "vi", "kr\u00e4ver", "allts\u00e5", "ers\u00e4ttning", "i", "40-talets", "penningv\u00e4rde", "."], "pos_tags": ["MID", "KN", "VB", "PN", "DT", "NN", "IE", "VB", "PP", "MID", "PN", "VB", "AB", "NN", "PP", "NN", "NN", "MAD"], "ner_tags": ["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]}
Dataset Split | Size Percentage of Total Dataset Size | Number of Instances for the Original Tags |
---|---|---|
train | 64% | 46,026 |
dev | 16% | 11,506 |
test | 20% | 14,383 |
由于需要匹配标签的要求,simple_tags重排版的实例较少。
请参阅 original webpage
Språkbanken
CC BY 4.0(带归属)
感谢 @robinqrtz 添加此数据集。