数据集:

rjac/kaggle-entity-annotated-corpus-ner-dataset

英文

日期:2022-07-10 文件:ner_dataset.csv 来源: Kaggle entity annotated corpus 备注:该数据集仅包含标记和命名实体识别标签。标签为大写字母。

关于数据集

from Kaggle Datasets

上下文

使用GMB(格罗宁根含义库)语料库对命名实体识别进行注释的语料库,通过自然语言处理应用于数据集的增强和流行特征进行实体分类。

提示:为了方便,如果使用Python,请使用Pandas Dataframe来加载数据集。

内容

这是从GMB语料库中提取出来的,经过标记、注释和构建的数据集,专门用于训练分类器以预测诸如名称、位置等命名实体。

标记的实体数量:

'O': 1146068,'geo-nam':58388,'org-nam':48034,'per-nam':23790,'gpe-nam':20680,'tim-dat':12786,'tim-dow':11404,'per-tit':9800,'per-fam':8152,'tim-yoc':5290,'tim-moy':4262,'per-giv':2413,'tim-clo':891,'art-nam':866,'eve-nam':602,'nat-nam':300,'tim-nam':146,'eve-ord':107,'per-ini':60,'org-leg':60,'per-ord':38,'tim-dom':10,'per-mid':1,'art-add':1

关于实体的基本信息

  • 地理实体(geo)
  • 组织(org)
  • 人(per)
  • 地缘政治实体(gpe)
  • 时间指示器(tim)
  • 人造物品(art)
  • 事件(eve)
  • 自然现象(nat)
  • 总词数=1354149
  • 目标数据列:“标签”(ner_tag在此存储库中)

启发:由于该数据集的最新版本添加了更多功能,因此这个数据集变得越来越有趣。此外,它有助于为该数据集相关的特征工程创建广泛的视角。

修改

ner_dataset.csv 被修改为与 CoNLL-2003 dataset 具有相似的数据结构。

许可信息

数据库:开放数据库,内容:数据库内容。