数据集:

ai4bharat/Bhasha-Abhijnaanam

英文

数据集卡片:Aksharantar

数据集概述

Bhasha-Abhijnaanam是一个涵盖22种印度语言的本土脚本和罗马化文本的语言识别测试集。

支持的任务和排行榜

[需要更多信息]

语言

Assamese (asm) Hindi (hin) Maithili (mai) Nepali (nep) Sanskrit (san) Tamil (tam)
Bengali (ben) Kannada (kan) Malayalam (mal) Oriya (ori) Santali (sat) Telugu (tel)
Bodo(brx) Kashmiri (kas) Manipuri (mni) Punjabi (pan) Sindhi (snd) Urdu (urd)
Gujarati (guj) Konkani (kok) Marathi (mar)

数据集结构

数据实例

A random sample from Hindi (hin) Test dataset.
{
    "unique_identifier": "hin1", 
    "native sentence": "",
    "romanized sentence": "",
    "language": "Hindi", 
    "script": "Devanagari", 
    "source": "Dakshina",
}

数据字段

  • unique_identifier (string): 由3个字母的语言代码和测试集中的唯一数字组成。

  • native sentence (string): 一句印度语言的句子。

  • romanized sentence (string): 本土语句子的英语音译(罗马化句子)。

  • language (string): 本土句子的语言。

  • script (string): 本土句子所使用的脚本。

  • source (string): 数据来源。

    对于创建的数据来源,在一个语言对的目的地/采样方法可能是以下之一:

    • Dakshina数据集
    • Flores-200
    • 手动罗马化
    • 手动生成

数据拆分

Subset asm ben brx guj hin kan kas (Perso-Arabic) kas (Devanagari) kok mai mal mni (Bengali) mni (Meetei Mayek) mar nep ori pan san sid tam tel urd
Native 1012 5606 1500 5797 5617 5859 2511 1012 1500 2512 5628 1012 1500 5611 2512 1012 5776 2510 2512 5893 5779 5751
Romanized 512 4595 433 4785 4606 4848 450 0 444 439 4617 0 442 4603 423 512 4765 448 0 4881 4767 4741

数据集创建

文献中的信息。

策展原因

[需要更多信息]

源数据

Initial Data Collection and Normalization

文献中的信息。

谁是源语言的生产者?

[需要更多信息]

标注

文献中的信息。

谁是标注者?

文献中的信息。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

此数据根据以下许可方案发布:

  • 手动收集数据:根据CC0许可证发布。

CC0许可证声明

引用信息

@misc{madhani2023bhashaabhijnaanam,
      title={Bhasha-Abhijnaanam: Native-script and romanized Language Identification for 22 Indic languages}, 
      author={Yash Madhani and Mitesh M. Khapra and Anoop Kunchukuttan},
      year={2023},
      eprint={2305.15814},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献