数据集:
cfilt/HiNER-collapsed
任务:
标记分类语言:
hi计算机处理:
monolingual大小:
100K<n<1M语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2204.13743许可:
cc-by-sa-4.0此数据集是在印度孟买理工学院(IIT Bombay)CFILT实验室为印地语命名实体识别基础NLP任务而创建的。我们从各个政府信息网页收集了数据集,并作为我们的数据收集策略的一部分手动注释了这些句子。
注意:该数据集包含来自ILCI和其他来源的句子。ILCI数据集需要印度语言协会(Indian Language Consortium)的许可,因此我们不会分发ILCI部分的数据。请通过电子邮件向我们发送ILCI数据获取的证明以获取完整的数据集。
命名实体识别
印地语
{'id': '0', 'tokens': ['प्राचीन', 'समय', 'में', 'उड़ीसा', 'को', 'कलिंग', 'के', 'नाम', 'से', 'जाना', 'जाता', 'था', '।'], 'ner_tags': [0, 0, 0, 3, 0, 3, 0, 0, 0, 0, 0, 0, 0]}
Train | Valid | Test | |
---|---|---|---|
original | 76025 | 10861 | 21722 |
collapsed | 76025 | 10861 | 21722 |
此存储库包含在2022年的“自然语言处理技术”(LREC)会议上发布的印地语命名实体识别数据集(HiNER)。可以通过 arXiv 的预印版进行查阅。 here
您应该安装“数据集”程序包以使用 :rocket: HuggingFace数据集存储库。请使用以下命令通过pip进行安装:
pip install datasets
要使用原始数据集的所有标记,请使用:
from datasets import load_dataset hiner = load_dataset('cfilt/HiNER-original')
要使用仅包含PER、LOC和ORG标记的折叠数据集,请使用:
from datasets import load_dataset hiner = load_dataset('cfilt/HiNER-collapsed')
不过,CoNLL格式的数据集文件也可以在此Git存储库的 data 文件夹中找到。
我们的最佳模型托管在HuggingFace模型存储库上:
HiNER是基于从印度政府管理的各种提供印地语信息的网站提取的数据构建的,用于命名实体识别任务。该数据集旨在为印地语这门自然语言处理领域的资料不足的语言引入新的资源。
HiNER是基于从印度政府管理的各种提供印地语信息的网站提取的数据构建的
谁是源语言的生产者?各种印度政府网页
此数据集由单个注释者在很长一段时间内手动注释而成。
谁是注释者?Pallab Bhattacharjee
我们确保数据集中没有敏感信息。所有数据点均来源于公开可获取的信息。
此数据集的目的是提供一个大型印地语命名实体识别数据集。由于信息(数据点)是从公共资源中获取的,我们认为发布此数据没有负面的社会影响。
由印度政府发布的数据中包含的任何偏见势必存在于我们的数据中。
[需要更多信息]
Pallab Bhattacharjee
CC-BY-SA 4.0
@misc{https://doi.org/10.48550/arxiv.2204.13743, doi = {10.48550/ARXIV.2204.13743}, url = {https://arxiv.org/abs/2204.13743}, author = {Murthy, Rudra and Bhattacharjee, Pallab and Sharnagat, Rahul and Khatri, Jyotsana and Kanojia, Diptesh and Bhattacharyya, Pushpak}, keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {HiNER: A Large Hindi Named Entity Recognition Dataset}, publisher = {arXiv}, year = {2022}, copyright = {Creative Commons Attribution 4.0 International} }