数据集:

ai4bharat/naamapadam

计算机处理:

multilingual

大小:

1M<n<10M

语言创建人:

machine-generated

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:2212.10168

许可:

cc0-1.0
英文

naamapadam 数据集卡片

数据集概要

naamapadam 是11种印度语言中最大的公开可用的命名实体注释数据集。该语料库通过将英语侧的命名实体映射到印度语言侧来创建。该数据集还包含手动标记的8种印度语言的测试集,包含500-1000个句子。

支持的任务和排行榜

任务:印度语言中的NER。

排行榜:目前该数据集暂无排行榜。

语言

  • 阿萨姆语(as)
  • 孟加拉语(bn)
  • 古吉拉特语(gu)
  • 卡纳达语(kn)
  • 印地语(hi)
  • 马拉雅拉姆语(ml)
  • 马拉地语(mr)
  • 奥里亚语(or)
  • 旁遮普语(pa)
  • 泰米尔语(ta)
  • 泰卢固语(te)

数据集结构

数据实例

{'words':['उन्हेनें','शिकांगों','में','बोरोडिन','की','पत्नी','को','तथा','वाशिंगटन','में','रूसी','व्यापार','संघ','को','पैसे','भेजे','।'],'ner':[0,3,0,1,0,0,0,0,3,0,5,6,6,0,0,0,0],}

数据字段

  • 词语 : 数据集中的原始标记。
  • ner :此数据集的NER标签。

数据拆分

(待更新,有关正确数字请参阅论文)

Language Train Validation Test
as 10266 52 51
bn 961679 4859 607
gu 472845 2389 50
hi 985787 13460 437
kn 471763 2381 1019
ml 716652 3618 974
mr 455248 2300 1080
or 196793 993 994
pa 463534 2340 2342
ta 497882 2795 49
te 507741 2700 53

用法

您应该安装"datasets"软件包以使用:rocket: HuggingFace数据集存储库。请使用以下命令通过pip进行安装:

    pip install datasets

要使用数据集,请使用:

    from datasets import load_dataset
    hiner = load_dataset('ai4bharat/naamapadam')

数据集创建

我们使用来自Samanantar数据集的英语和11种主要印度语言之间的平行语料库创建NER数据集。我们使用现有的最先进的NER模型对平行语料库的英语部分进行注释。我们使用从平行语料库中学习的单词级对齐来将实体标签从英语投影到印度语言。

策展原理

naamapadam是从 Samanantar dataset 开始构建的。该数据集的构建是为了在印度语言中的命名实体识别任务中引入新的资源。

来源数据

Samanantar dataset

开始数据收集和规范化

[需要更多信息]

谁是源语言的制造商?

[需要更多信息]

注释

注释流程

NER注释遵循CoNLL-2003准则。

注释者是谁?

测试集的注释是由精通各自语言的志愿者完成的。我们要感谢所有志愿者:

  • Anil Mhaske
  • Anoop Kunchukuttan
  • Archana Mhaske
  • Arnav Mhaske
  • Gowtham Ramesh
  • Harshit Kedia
  • Nitin Kedia
  • Rudramurthy V
  • Sangeeta Rajagopal
  • Sumanth Doddapaneni
  • Vindhya DS
  • Yash Madhani
  • Kabir Ahuja
  • Shallu Rani
  • Armin Virk

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

这个数据集的目的是为印度语言提供一个大规模的命名实体识别数据集。由于信息(数据点)来自公共资源,我们认为发布这些数据不会产生负面的社会影响。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

CC0许可证声明

  • 我们不拥有从中提取此数据的任何文本。
  • 我们根据 Creative Commons CC0 license (“no rights reserved”) 授权矿山数据的实际包装。
  • 在法律许可的范围内, AI4Bharat 已放弃了与Naamapadam手动收集的数据和现有来源相关的版权和相关或相邻的权利。
  • 这项工作是从印度发布的。

引文信息

如果您正在使用Naampadam语料库,请引用以下文章:

@misc{mhaske2022naamapadam,
  doi = {10.48550/ARXIV.2212.10168},
  url = {https://arxiv.org/abs/2212.10168},
  author = {Mhaske, Arnav and Kedia, Harshit and Doddapaneni, Sumanth and Khapra, Mitesh M. and Kumar, Pratyush and Murthy, Rudra and Kunchukuttan, Anoop},
  title = {Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages}
  publisher = {arXiv},
  year = {2022},
}

贡献者

此工作是自愿努力的成果,是 AI4Bharat initiative 的一部分。

联系方式

  • Anoop Kunchukuttan(anoop.kunchukuttan@gmail.com)
  • Rudra Murthy V(rmurthyv@in.ibm.com)