数据集:

cfilt/HiNER-original

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2204.13743

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

HiNER-original 数据集卡片

数据集摘要

该数据集由印度孟买 IIT CFILT 实验室为印地语的命名实体识别基础自然语言处理任务创建而成。我们从各个政府信息网页收集了数据，并在数据采集策略中手动标注了这些句子。

注意: 数据集中包含了 ILCI 和其他来源的句子。ILCI 数据集需要印度语言联盟的许可才能分发。请向我们发送带有 ILCI 数据获取证明的邮件以获取完整的数据集。

支持的任务和排行榜

命名实体识别

语言

印地语

数据集结构

数据实例

{'id': '0', 'tokens': ['प्राचीन', 'समय', 'में', 'उड़ीसा', 'को', 'कलिंग','के', 'नाम', 'से', 'जाना', 'जाता', 'था', '।'], 'ner_tags': [0, 0, 0, 3, 0, 3, 0, 0, 0, 0, 0, 0, 0]}

数据字段

id : 数据点的 ID 值。
tokens : 数据集中的原始标记。
ner_tags : 此数据集的命名实体识别标签。

数据拆分

Train	Valid	Test
original	76025	10861	21722
collapsed	76025	10861	21722

关于

本存储库包含在 2022 年的语言资源和评价会议 (LREC) 上发布的印地语命名实体识别数据集 (HiNER)。可以通过 arXiv 上的预印本进行访问 here 。

使用

您应该安装 'datasets' 软件包以便使用 :rocket: HuggingFace 数据集存储库。请使用以下命令通过 pip 安装：

    pip install datasets

要使用带有所有标签的原始数据集，请使用：

    from datasets import load_dataset
    hiner = load_dataset('cfilt/HiNER-original')

要使用仅包含 PER、LOC 和 ORG 标签的简化数据集，请使用：

    from datasets import load_dataset
    hiner = load_dataset('cfilt/HiNER-collapsed')

此外，CoNLL 格式的数据集文件也可以在此 Git 存储库的 data 文件夹中找到。

模型

我们最佳的模型存储在 HuggingFace 模型存储库中：

HiNER-Collapsed-XLM-R

HiNER-Original-XLM-R

数据集创建

策划理由

HiNER 使用从印度政府管理的各个提供印地语信息的网站中提取的数据构建。这个数据集是为了命名实体识别任务而创建的。该数据集旨在为印地语提供新资源，以弥补其在自然语言处理方面的不足。

数据源

初始数据收集和归一化

HiNER 使用从印度政府管理的各个提供印地语信息的网站中提取的数据构建

谁是源语言的生产者？

各种印度政府网页

注释

注释过程

这个数据集是由一个标注者在很长一段时间内手动标注的。

标注者是谁？

Pallab Bhattacharjee

个人和敏感信息

我们确保数据集中没有包含敏感信息。所有数据点都是从公开可获取的信息中整理而来的。

使用数据的注意事项

数据的社会影响

这个数据集的目的是提供一个大规模的印地语命名实体识别数据集。由于数据点的信息来自公共资源，我们认为发布这些数据不会造成负面的社会影响。

偏见讨论

印度政府发布的数据中存在的任何偏见都可能存在于我们的数据中。

其他已知限制

[需要更多信息]

附加信息

数据集策划者