模型:
ai4bharat/IndicNER
IndicNER是一个经过训练的模型,用于识别印度语言中句子中的命名实体。我们的模型专门针对上述11种印度语言进行了微调,并使用数百万个句子进行了基准测试和其他公开可用的印度NER数据集。IndicNER涵盖的11种语言包括:阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和泰卢固语。
我们的模型是在我们从现有的 [ Samanantar Corpus ] 挖掘出的 [ dataset ] 上进行训练的。我们使用了一个bert-base-multilingual-uncased模型作为起点,然后对之前提到的NER数据集进行微调。
从这个相同的Huggingface repo下载。
2022年12月20日更新:我们发布了一篇关于IndicNER和Naamapadam的新论文。我们在论文中报告了一个不同的模型。我们将很快在这个repo中更新这个模型。
您可以使用 [ this Colab notebook ] 来了解如何使用IndicNER,或者使用Naampadam数据集对预训练模型进行微调,构建自己的NER模型。
如果您使用IndicNER,请引用以下文章:
[@misc{mhaske2022naamapadam, doi = {10.48550/ARXIV.2212.10168}, url = {https://arxiv.org/abs/2212.10168}, author = {Mhaske, Arnav and Kedia, Harshit and Doddapaneni, Sumanth and Khapra, Mitesh M. and Kumar, Pratyush and Murthy, Rudra and Kunchukuttan, Anoop}, title = {Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages} publisher = {arXiv}, year = {2022}, copyright = {arXiv.org perpetual, non-exclusive license} }]
我们很想听到您的声音:
IndicNER代码(和模型)使用MIT许可证发布。
这项工作是 [ AI4Bharat initiative ] 的志愿者努力的成果。