英文

IndicNER

IndicNER是一个经过训练的模型,用于识别印度语言中句子中的命名实体。我们的模型专门针对上述11种印度语言进行了微调,并使用数百万个句子进行了基准测试和其他公开可用的印度NER数据集。IndicNER涵盖的11种语言包括:阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和泰卢固语。

训练语料库

我们的模型是在我们从现有的 [ Samanantar Corpus ] 挖掘出的 [ dataset ] 上进行训练的。我们使用了一个bert-base-multilingual-uncased模型作为起点,然后对之前提到的NER数据集进行微调。

下载

从这个相同的Huggingface repo下载。

2022年12月20日更新:我们发布了一篇关于IndicNER和Naamapadam的新论文。我们在论文中报告了一个不同的模型。我们将很快在这个repo中更新这个模型。

使用方法

您可以使用 [ this Colab notebook ] 来了解如何使用IndicNER,或者使用Naampadam数据集对预训练模型进行微调,构建自己的NER模型。

引用

如果您使用IndicNER,请引用以下文章:

[
@misc{mhaske2022naamapadam,
  doi = {10.48550/ARXIV.2212.10168},
  url = {https://arxiv.org/abs/2212.10168},
  author = {Mhaske, Arnav and Kedia, Harshit and Doddapaneni, Sumanth and Khapra, Mitesh M. and Kumar, Pratyush and Murthy, Rudra and Kunchukuttan, Anoop},
  title = {Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages}
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}
]

我们很想听到您的声音:

  • 您正在使用我们的资源。请告诉我们您如何使用这些资源。
  • 您对这些资源有任何反馈意见。

许可证

IndicNER代码(和模型)使用MIT许可证发布。

贡献者

这项工作是 [ AI4Bharat initiative ] 的志愿者努力的成果。

联系方式

  • Anoop Kunchukuttan(anoop.kunchukuttan@gmail.com)
  • Rudra Murthy V(rmurthyv@in.ibm.com)