数据集:
ai4bharat/Aksharantar
Aksharantar是包含20种印度语言的最大公开可用的音译数据集。该语料库包含2600万个印度语言-英语音译对。
[需要更多信息]
Assamese (asm) | Hindi (hin) | Maithili (mai) | Marathi (mar) | Punjabi (pan) | Tamil (tam) |
Bengali (ben) | Kannada (kan) | Malayalam (mal) | Nepali (nep) | Sanskrit (san) | Telugu (tel) |
Bodo(brx) | Kashmiri (kas) | Manipuri (mni) | Oriya (ori) | Sindhi (snd) | Urdu (urd) |
Gujarati (guj) | Konkani (kok) |
A random sample from Hindi (hin) Train dataset. { 'unique_identifier': 'hin1241393', 'native word': 'स्वाभिमानिक', 'english word': 'swabhimanik', 'source': 'IndicCorp', 'score': -0.1028788579 }
唯一标识符 (string): 每个集合(训练、测试、验证)中的3个字母语言代码后跟一个唯一数字。
原词 (string): 印度语言中的一个词。
英语词 (string): 原词的英语音译(罗马化词)。
来源 (string): 数据的来源。
得分 (num): IndicXlit (模型)根据罗马化词给出印度单词的字符级别对数概率。平均阈值为0.35的配对被认为是有效的。
对于已创建的数据源,根据配对在语言中的目标/采样方法,可以是以下之一:
Subset | asm-en | ben-en | brx-en | guj-en | hin-en | kan-en | kas-en | kok-en | mai-en | mal-en | mni-en | mar-en | nep-en | ori-en | pan-en | san-en | sid-en | tam-en | tel-en | urd-en |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Training | 179K | 1231K | 36K | 1143K | 1299K | 2907K | 47K | 613K | 283K | 4101K | 10K | 1453K | 2397K | 346K | 515K | 1813K | 60K | 3231K | 2430K | 699K |
Validation | 4K | 11K | 3K | 12K | 6K | 7K | 4K | 4K | 4K | 8K | 3K | 8K | 3K | 3K | 9K | 3K | 8K | 9K | 8K | 12K |
Test | 5531 | 5009 | 4136 | 7768 | 5693 | 6396 | 7707 | 5093 | 5512 | 6911 | 4925 | 6573 | 4133 | 4256 | 4316 | 5334 | - | 4682 | 4567 | 4463 |
论文中提供了信息。 Aksharantar: Towards building open transliteration tools for the next billion users
[需要更多信息]
论文中提供了信息。 Aksharantar: Towards building open transliteration tools for the next billion users
谁是源语言生成者?[需要更多信息]
论文中提供了信息。 Aksharantar: Towards building open transliteration tools for the next billion users
注释过程论文中提供了信息。 Aksharantar: Towards building open transliteration tools for the next billion users
谁是注释者?论文中提供了信息。 Aksharantar: Towards building open transliteration tools for the next billion users
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
这些数据根据以下许可方案发布:
CC-BY许可证
CC0许可声明
@misc{madhani2022aksharantar, title={Aksharantar: Towards Building Open Transliteration Tools for the Next Billion Users}, author={Yash Madhani and Sushane Parthan and Priyanka Bedekar and Ruchi Khapra and Anoop Kunchukuttan and Pratyush Kumar and Mitesh Shantadevi Khapra}, year={2022}, eprint={}, archivePrefix={arXiv}, primaryClass={cs.CL} }