数据集:
cfilt/HiNER-original
任务:
标记分类语言:
hi计算机处理:
monolingual大小:
100K<n<1M语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2204.13743许可:
cc-by-sa-4.0该数据集由印度孟买 IIT CFILT 实验室为印地语的命名实体识别基础自然语言处理任务创建而成。我们从各个政府信息网页收集了数据,并在数据采集策略中手动标注了这些句子。
注意: 数据集中包含了 ILCI 和其他来源的句子。ILCI 数据集需要印度语言联盟的许可才能分发。请向我们发送带有 ILCI 数据获取证明的邮件以获取完整的数据集。
命名实体识别
印地语
{'id': '0', 'tokens': ['प्राचीन', 'समय', 'में', 'उड़ीसा', 'को', 'कलिंग','के', 'नाम', 'से', 'जाना', 'जाता', 'था', '।'], 'ner_tags': [0, 0, 0, 3, 0, 3, 0, 0, 0, 0, 0, 0, 0]}
Train | Valid | Test | |
---|---|---|---|
original | 76025 | 10861 | 21722 |
collapsed | 76025 | 10861 | 21722 |
本存储库包含在 2022 年的语言资源和评价会议 (LREC) 上发布的印地语命名实体识别数据集 (HiNER)。可以通过 arXiv 上的预印本进行访问 here 。
您应该安装 'datasets' 软件包以便使用 :rocket: HuggingFace 数据集存储库。请使用以下命令通过 pip 安装:
pip install datasets
要使用带有所有标签的原始数据集,请使用:
from datasets import load_dataset hiner = load_dataset('cfilt/HiNER-original')
要使用仅包含 PER、LOC 和 ORG 标签的简化数据集,请使用:
from datasets import load_dataset hiner = load_dataset('cfilt/HiNER-collapsed')
此外,CoNLL 格式的数据集文件也可以在此 Git 存储库的 data 文件夹中找到。
我们最佳的模型存储在 HuggingFace 模型存储库中:
HiNER 使用从印度政府管理的各个提供印地语信息的网站中提取的数据构建。这个数据集是为了命名实体识别任务而创建的。该数据集旨在为印地语提供新资源,以弥补其在自然语言处理方面的不足。
HiNER 使用从印度政府管理的各个提供印地语信息的网站中提取的数据构建
谁是源语言的生产者?各种印度政府网页
这个数据集是由一个标注者在很长一段时间内手动标注的。
标注者是谁?Pallab Bhattacharjee
我们确保数据集中没有包含敏感信息。所有数据点都是从公开可获取的信息中整理而来的。
这个数据集的目的是提供一个大规模的印地语命名实体识别数据集。由于数据点的信息来自公共资源,我们认为发布这些数据不会造成负面的社会影响。
印度政府发布的数据中存在的任何偏见都可能存在于我们的数据中。
[需要更多信息]
Pallab Bhattacharjee
CC-BY-SA 4.0
@misc{https://doi.org/10.48550/arxiv.2204.13743, doi = {10.48550/ARXIV.2204.13743}, url = {https://arxiv.org/abs/2204.13743}, author = {Murthy, Rudra and Bhattacharjee, Pallab and Sharnagat, Rahul and Khatri, Jyotsana and Kanojia, Diptesh and Bhattacharyya, Pushpak}, keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {HiNER: A Large Hindi Named Entity Recognition Dataset}, publisher = {arXiv}, year = {2022}, copyright = {Creative Commons Attribution 4.0 International} }