数据集:
ai4bharat/Bhasha-Abhijnaanam
Bhasha-Abhijnaanam是一个涵盖22种印度语言的本土脚本和罗马化文本的语言识别测试集。
[需要更多信息]
Assamese (asm) | Hindi (hin) | Maithili (mai) | Nepali (nep) | Sanskrit (san) | Tamil (tam) |
Bengali (ben) | Kannada (kan) | Malayalam (mal) | Oriya (ori) | Santali (sat) | Telugu (tel) |
Bodo(brx) | Kashmiri (kas) | Manipuri (mni) | Punjabi (pan) | Sindhi (snd) | Urdu (urd) |
Gujarati (guj) | Konkani (kok) | Marathi (mar) |
A random sample from Hindi (hin) Test dataset. { "unique_identifier": "hin1", "native sentence": "", "romanized sentence": "", "language": "Hindi", "script": "Devanagari", "source": "Dakshina", }
unique_identifier (string): 由3个字母的语言代码和测试集中的唯一数字组成。
native sentence (string): 一句印度语言的句子。
romanized sentence (string): 本土语句子的英语音译(罗马化句子)。
language (string): 本土句子的语言。
script (string): 本土句子所使用的脚本。
source (string): 数据来源。
对于创建的数据来源,在一个语言对的目的地/采样方法可能是以下之一:
Subset | asm | ben | brx | guj | hin | kan | kas (Perso-Arabic) | kas (Devanagari) | kok | mai | mal | mni (Bengali) | mni (Meetei Mayek) | mar | nep | ori | pan | san | sid | tam | tel | urd |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Native | 1012 | 5606 | 1500 | 5797 | 5617 | 5859 | 2511 | 1012 | 1500 | 2512 | 5628 | 1012 | 1500 | 5611 | 2512 | 1012 | 5776 | 2510 | 2512 | 5893 | 5779 | 5751 |
Romanized | 512 | 4595 | 433 | 4785 | 4606 | 4848 | 450 | 0 | 444 | 439 | 4617 | 0 | 442 | 4603 | 423 | 512 | 4765 | 448 | 0 | 4881 | 4767 | 4741 |
文献中的信息。
[需要更多信息]
文献中的信息。
谁是源语言的生产者?[需要更多信息]
文献中的信息。
谁是标注者?文献中的信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
此数据根据以下许可方案发布:
CC0许可证声明
@misc{madhani2023bhashaabhijnaanam, title={Bhasha-Abhijnaanam: Native-script and romanized Language Identification for 22 Indic languages}, author={Yash Madhani and Mitesh M. Khapra and Anoop Kunchukuttan}, year={2023}, eprint={2305.15814}, archivePrefix={arXiv}, primaryClass={cs.CL} }