数据集:
ai4bharat/naamapadam
任务:
标记分类计算机处理:
multilingual大小:
1M<n<10M语言创建人:
machine-generated批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:2212.10168许可:
cc0-1.0naamapadam 是11种印度语言中最大的公开可用的命名实体注释数据集。该语料库通过将英语侧的命名实体映射到印度语言侧来创建。该数据集还包含手动标记的8种印度语言的测试集,包含500-1000个句子。
任务:印度语言中的NER。
排行榜:目前该数据集暂无排行榜。
{'words':['उन्हेनें','शिकांगों','में','बोरोडिन','की','पत्नी','को','तथा','वाशिंगटन','में','रूसी','व्यापार','संघ','को','पैसे','भेजे','।'],'ner':[0,3,0,1,0,0,0,0,3,0,5,6,6,0,0,0,0],}
(待更新,有关正确数字请参阅论文)
Language | Train | Validation | Test |
---|---|---|---|
as | 10266 | 52 | 51 |
bn | 961679 | 4859 | 607 |
gu | 472845 | 2389 | 50 |
hi | 985787 | 13460 | 437 |
kn | 471763 | 2381 | 1019 |
ml | 716652 | 3618 | 974 |
mr | 455248 | 2300 | 1080 |
or | 196793 | 993 | 994 |
pa | 463534 | 2340 | 2342 |
ta | 497882 | 2795 | 49 |
te | 507741 | 2700 | 53 |
您应该安装"datasets"软件包以使用:rocket: HuggingFace数据集存储库。请使用以下命令通过pip进行安装:
pip install datasets
要使用数据集,请使用:
from datasets import load_dataset hiner = load_dataset('ai4bharat/naamapadam')
我们使用来自Samanantar数据集的英语和11种主要印度语言之间的平行语料库创建NER数据集。我们使用现有的最先进的NER模型对平行语料库的英语部分进行注释。我们使用从平行语料库中学习的单词级对齐来将实体标签从英语投影到印度语言。
naamapadam是从 Samanantar dataset 开始构建的。该数据集的构建是为了在印度语言中的命名实体识别任务中引入新的资源。
[需要更多信息]
谁是源语言的制造商?[需要更多信息]
NER注释遵循CoNLL-2003准则。
注释者是谁?测试集的注释是由精通各自语言的志愿者完成的。我们要感谢所有志愿者:
[需要更多信息]
这个数据集的目的是为印度语言提供一个大规模的命名实体识别数据集。由于信息(数据点)来自公共资源,我们认为发布这些数据不会产生负面的社会影响。
[需要更多信息]
[需要更多信息]
[需要更多信息]
如果您正在使用Naampadam语料库,请引用以下文章:
@misc{mhaske2022naamapadam, doi = {10.48550/ARXIV.2212.10168}, url = {https://arxiv.org/abs/2212.10168}, author = {Mhaske, Arnav and Kedia, Harshit and Doddapaneni, Sumanth and Khapra, Mitesh M. and Kumar, Pratyush and Murthy, Rudra and Kunchukuttan, Anoop}, title = {Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages} publisher = {arXiv}, year = {2022}, }
此工作是自愿努力的成果,是 AI4Bharat initiative 的一部分。