数据集:
swedish_ner_corpus
任务:
标记分类语言:
sv计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-4.0来自 Spraakbanken 的 2012 年 Webnyheter,用于 CoreNLP 的瑞典命名实体识别(NER)的半手动注释和调整。在此情况下,半手动定义为:从瑞典名词词表中引导的,然后由两个独立的以瑞典语为母语的注释员进行手动修正/审核。没有计算注释员一致性。
[需要更多信息]
瑞典语
下面提供了一个示例数据集实例:
{'id': '3', 'ner_tags': [4, 4, 0, 0, 0, 0, 0, 0, 3, 3, 0], 'tokens': ['Margaretha', 'Fahlgren', ',', 'professor', 'i', 'litteraturvetenskap', ',', 'vice-rektor', 'Uppsala', 'universitet', '.']}
完整的字段:
{ "id":{ "feature_type":"Value" "dtype":"string" } "tokens":{ "feature_type":"Sequence" "feature":{ "feature_type":"Value" "dtype":"string" } } "ner_tags":{ "feature_type":"Sequence" "dtype":"int32" "feature":{ "feature_type":"ClassLabel" "dtype":"int32" "class_names":[ 0:"0" 1:"LOC" 2:"MISC" 3:"ORG" 4:"PER" ] } } }
[需要更多信息]
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
谁是源语言的制作者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释员?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
原始数据集由 Språkbanken 提供,其中包含来自瑞典报纸网站的新闻。
https://github.com/klintan/swedish-ner-corpus/blob/master/LICENSE
[需要更多信息]
感谢 @abhishekkrthakur 添加此数据集。