数据集:
rjac/kaggle-entity-annotated-corpus-ner-dataset
日期:2022-07-10 文件:ner_dataset.csv 来源: Kaggle entity annotated corpus 备注:该数据集仅包含标记和命名实体识别标签。标签为大写字母。
使用GMB(格罗宁根含义库)语料库对命名实体识别进行注释的语料库,通过自然语言处理应用于数据集的增强和流行特征进行实体分类。
提示:为了方便,如果使用Python,请使用Pandas Dataframe来加载数据集。
这是从GMB语料库中提取出来的,经过标记、注释和构建的数据集,专门用于训练分类器以预测诸如名称、位置等命名实体。
标记的实体数量:
'O': 1146068,'geo-nam':58388,'org-nam':48034,'per-nam':23790,'gpe-nam':20680,'tim-dat':12786,'tim-dow':11404,'per-tit':9800,'per-fam':8152,'tim-yoc':5290,'tim-moy':4262,'per-giv':2413,'tim-clo':891,'art-nam':866,'eve-nam':602,'nat-nam':300,'tim-nam':146,'eve-ord':107,'per-ini':60,'org-leg':60,'per-ord':38,'tim-dom':10,'per-mid':1,'art-add':1
启发:由于该数据集的最新版本添加了更多功能,因此这个数据集变得越来越有趣。此外,它有助于为该数据集相关的特征工程创建广泛的视角。
ner_dataset.csv 被修改为与 CoNLL-2003 dataset 具有相似的数据结构。
数据库:开放数据库,内容:数据库内容。