数据集:

cfilt/HiNER-collapsed

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2204.13743

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

HiNER-original的数据集卡片

数据集摘要

此数据集是在印度孟买理工学院（IIT Bombay）CFILT实验室为印地语命名实体识别基础NLP任务而创建的。我们从各个政府信息网页收集了数据集，并作为我们的数据收集策略的一部分手动注释了这些句子。

注意：该数据集包含来自ILCI和其他来源的句子。ILCI数据集需要印度语言协会（Indian Language Consortium）的许可，因此我们不会分发ILCI部分的数据。请通过电子邮件向我们发送ILCI数据获取的证明以获取完整的数据集。

支持的任务和排行榜

命名实体识别

语言

印地语

数据集结构

数据实例

{'id': '0', 'tokens': ['प्राचीन', 'समय', 'में', 'उड़ीसा', 'को', 'कलिंग', 'के', 'नाम', 'से', 'जाना', 'जाता', 'था', '।'], 'ner_tags': [0, 0, 0, 3, 0, 3, 0, 0, 0, 0, 0, 0, 0]}

数据字段

id: 数据点的ID值。
tokens: 数据集中的原始标记。
ner_tags: 此数据集的NER标记。

数据拆分

Train	Valid	Test
original	76025	10861	21722
collapsed	76025	10861	21722

关于

此存储库包含在2022年的“自然语言处理技术”（LREC）会议上发布的印地语命名实体识别数据集（HiNER）。可以通过 arXiv 的预印版进行查阅。 here

使用

您应该安装“数据集”程序包以使用 :rocket: HuggingFace数据集存储库。请使用以下命令通过pip进行安装：

    pip install datasets

要使用原始数据集的所有标记，请使用：

    from datasets import load_dataset
    hiner = load_dataset('cfilt/HiNER-original')

要使用仅包含PER、LOC和ORG标记的折叠数据集，请使用：

    from datasets import load_dataset
    hiner = load_dataset('cfilt/HiNER-collapsed')

不过，CoNLL格式的数据集文件也可以在此Git存储库的 data 文件夹中找到。

模型

我们的最佳模型托管在HuggingFace模型存储库上：

HiNER-Collapsed-XLM-R

HiNER-Original-XLM-R

数据集创建

策划原因

HiNER是基于从印度政府管理的各种提供印地语信息的网站提取的数据构建的，用于命名实体识别任务。该数据集旨在为印地语这门自然语言处理领域的资料不足的语言引入新的资源。

来源数据

初始数据收集和标准化

HiNER是基于从印度政府管理的各种提供印地语信息的网站提取的数据构建的

谁是源语言的生产者？

各种印度政府网页

注释

注释过程

此数据集由单个注释者在很长一段时间内手动注释而成。

谁是注释者？

Pallab Bhattacharjee

个人和敏感信息

我们确保数据集中没有敏感信息。所有数据点均来源于公开可获取的信息。

使用数据的注意事项

数据的社会影响

此数据集的目的是提供一个大型印地语命名实体识别数据集。由于信息（数据点）是从公共资源中获取的，我们认为发布此数据没有负面的社会影响。

偏见讨论

由印度政府发布的数据中包含的任何偏见势必存在于我们的数据中。

其他已知限制

[需要更多信息]

附加信息

数据集策划者