数据集:

id_nergrit_corpus

语言:

id

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

数据集卡片 - [数据集名称]

数据集概述

Nergrit Corpus 是由 PT Gria Inovasi Teknologi (GRIT) 开发的印尼命名实体识别、句子提取和情感分析数据集合。

支持的任务和排行榜

[需要更多信息]

语言

印尼语

数据集结构

一个数据点由空行分隔的句子和用制表符分隔的标记和标签组成。

{'id': '0',
 'tokens': ['Gubernur', 'Bank', 'Indonesia', 'menggelar', 'konferensi', 'pers'],
 'ner_tags': [9, 28, 28, 38, 38, 38],
}

数据实例

[需要更多信息]

数据字段

  • id: 样本的ID
  • tokens: 示例文本的标记
  • ner_tags: 每个标记的命名实体识别标签
命名实体识别

ner_tags对应以下列表:

"B-CRD", "B-DAT", "B-EVT", "B-FAC", "B-GPE", "B-LAN", "B-LAW", "B-LOC", "B-MON", "B-NOR", 
"B-ORD", "B-ORG", "B-PER", "B-PRC", "B-PRD", "B-QTY", "B-REG", "B-TIM", "B-WOA",
"I-CRD", "I-DAT", "I-EVT", "I-FAC", "I-GPE", "I-LAN", "I-LAW", "I-LOC", "I-MON", "I-NOR",
"I-ORD", "I-ORG", "I-PER", "I-PRC", "I-PRD", "I-QTY", "I-REG", "I-TIM", "I-WOA", "O",

ner_tags的格式与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非初始词。数据集包含以下19个实体

    'CRD': Cardinal
    'DAT': Date
    'EVT': Event
    'FAC': Facility
    'GPE': Geopolitical Entity
    'LAW': Law Entity (such as Undang-Undang)
    'LOC': Location
    'MON': Money
    'NOR': Political Organization
    'ORD': Ordinal
    'ORG': Organization
    'PER': Person
    'PRC': Percent
    'PRD': Product
    'QTY': Quantity
    'REG': Religion
    'TIM': Time
    'WOA': Work of Art
    'LAN': Language
情感分析

ner_tags对应以下列表:

"B-NEG", "B-NET", "B-POS",
"I-NEG", "I-NET", "I-POS",
"O",
句子提取

ner_tags对应以下列表:

"B-BREL", "B-FREL", "B-STAT", "B-WHO",
"I-BREL", "I-FREL", "I-STAT", "I-WHO", 
"O"

ner_tags的格式与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非初始词。

数据划分

数据集被划分为训练集、验证集和测试集。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

注释者列在 Nergrit Corpus repository

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @cahya-wirawan 添加此数据集。