AutoNLP项目的数据集: pos-tag-bosque

数据集描述

此数据集已通过AutoNLP自动处理用于pos-tag-bosque项目。

语言

数据集的BCP-47代码为pt。

数据集结构

数据实例

数据集的示例如下所示：

[
  {
    "tags": [
      5,
      7,
      0
    ],
    "tokens": [
      "Um",
      "revivalismo",
      "refrescante"
    ]
  },
  {
    "tags": [
      5,
      11,
      11,
      11,
      3,
      5,
      7,
      1,
      5,
      7,
      0,
      12
    ],
    "tokens": [
      "O",
      "7",
      "e",
      "Meio",
      "\u00e9",
      "um",
      "ex-libris",
      "de",
      "a",
      "noite",
      "algarvia",
      "."
    ]
  }
]

数据集字段

数据集具有以下字段（也称为"特征"）：

{
  "tags": "Sequence(feature=ClassLabel(num_classes=17, names=['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'PUNCT', 'SCONJ', 'SYM', 'VERB', 'X'], names_file=None, id=None), length=-1, id=None)",
  "tokens": "Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)"
}

数据集拆分

此数据集被拆分为训练集和验证集。拆分大小如下：

Split name	Num samples
train	8328
valid	476

作者:

Emanuel

数据集大小:

10.5 MB

AutoNLP项目的数据集: pos-tag-bosque

目录

数据集描述

语言

数据集结构

数据实例

数据集字段

数据集拆分