介绍
在自然语言处理(NLP)中,纯文本中专有名词和名称的识别和分类对于各种类型的应用程序的性能具有重要影响,包括信息提取、机器翻译、语法分析/分块等。
商业新闻文本语料库(business)
匈牙利命名实体语料库是Szeged树库的子语料库,其中包含由语言学专家手动完成的完整句法注释。这些文本的重要部分已按照与CoNLL-2003共享任务上使用的标注标准相一致的命名实体类别标签进行了注释。
语料库中出现的命名实体的统计数据:
| tokens | phrases
------ | ------ | -------
non NE | 200067 |
PER | 1921 | 982
ORG | 20433 | 10533
LOC | 1501 | 1294
MISC | 2041 | 1662
参考文献
György Szarvas, Richárd Farkas, László Felföldi, András Kocsor, János Csirik: 高准确度匈牙利命名实体语料库。2006年国际语言资源与评估会议,热那亚(意大利)
犯罪命名实体语料库(criminal)
匈牙利国家语料库及其Heti Világgazdaság(HVG)子语料库为语料库文本选择提供了基础:选择与金融责任犯罪主题相关的文章,并对人物、组织、位置和杂项进行了注释。语料库有两个注释版本。在准备标记-用于含义的注释时,我们的语言学家考虑了命名实体调查所出现的上下文,因此,决定标签的不是命名实体的主要意义(例如Manchester=LOC),而是其上下文参考(例如Manchester赢得了英超联赛=ORG)。至于标记-用于标记注释,这些情况没有区分:标签总是根据主要意义给出的。
语料库中出现的命名实体的统计数据:
| tag-for-meaning | tag-for-tag
------ | --------------- | -----------
non NE | 200067 |
PER | 8101 | 8121
ORG | 8782 | 9480
LOC | 5049 | 5391
MISC | 1917 | 854
元数据
dataset_info:
- config_name: businessfeatures:
- name: iddtype: 字符串
- name: tokenssequence: 字符串
- name: ner_tagssequence: class_label:names: 0: O 1: B-PER 2: I-PER 3: B-ORG 4: I-ORG 5: B-LOC 6: I-LOC 7: B-MISC 8: I-MISC
- name: document_iddtype: 字符串
- name: sentence_iddtype: 字符串拆分:
- name: originalnum_bytes: 4452207num_examples: 9573
- name: testnum_bytes: 856798num_examples: 1915
- name: trainnum_bytes: 3171931num_examples: 6701
- name: validationnum_bytes: 423478num_examples: 957download_size: 0dataset_size: 8904414
- config_name: criminalfeatures:
- name: iddtype: 字符串
- name: tokenssequence: 字符串
- name: ner_tagssequence: class_label:names: 0: O 1: B-PER 2: I-PER 3: B-ORG 4: I-ORG 5: B-LOC 6: I-LOC 7: B-MISC 8: I-MISC
- name: document_iddtype: 字符串
- name: sentence_iddtype: 字符串拆分:
- name: originalnum_bytes: 2807970num_examples: 5375
- name: testnum_bytes: 520959num_examples: 1089
- name: trainnum_bytes: 1989662num_examples: 3760
- name: validationnum_bytes: 297349num_examples: 526download_size: 0dataset_size: 5615940