数据集:

Emanuel/UD_Portuguese-Bosque

语言:

pt
英文

AutoNLP项目的数据集: pos-tag-bosque

目录

  • 数据集描述
    • 语言
  • 数据集结构
    • 数据实例
    • 数据字段
    • 数据拆分

数据集描述

此数据集已通过AutoNLP自动处理用于pos-tag-bosque项目。

语言

数据集的BCP-47代码为pt。

数据集结构

数据实例

数据集的示例如下所示:

[
  {
    "tags": [
      5,
      7,
      0
    ],
    "tokens": [
      "Um",
      "revivalismo",
      "refrescante"
    ]
  },
  {
    "tags": [
      5,
      11,
      11,
      11,
      3,
      5,
      7,
      1,
      5,
      7,
      0,
      12
    ],
    "tokens": [
      "O",
      "7",
      "e",
      "Meio",
      "\u00e9",
      "um",
      "ex-libris",
      "de",
      "a",
      "noite",
      "algarvia",
      "."
    ]
  }
]

数据集字段

数据集具有以下字段(也称为"特征"):

{
  "tags": "Sequence(feature=ClassLabel(num_classes=17, names=['ADJ', 'ADP', 'ADV', 'AUX', 'CCONJ', 'DET', 'INTJ', 'NOUN', 'NUM', 'PART', 'PRON', 'PROPN', 'PUNCT', 'SCONJ', 'SYM', 'VERB', 'X'], names_file=None, id=None), length=-1, id=None)",
  "tokens": "Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)"
}

数据集拆分

此数据集被拆分为训练集和验证集。拆分大小如下:

Split name Num samples
train 8328
valid 476