数据集:
mkb
印度总理的演讲——Mann Ki Baat,以多种语言翻译播放在全印度广播中。
[需要更多信息]
印地语,泰卢固语,泰米尔语,马拉雅拉姆语,古吉拉特语,乌尔都语,孟加拉语,欧里亚语,马拉地语,旁遮普语和英语
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
初始数据收集与规范化[需要更多信息]
谁是源语言生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
此处提供的数据集和预训练模型使用知识共享署名-相同方式共享4.0国际许可进行许可。
@misc{siripragada2020multilingual, title={A Multilingual Parallel Corpora Collection Effort for Indian Languages}, author={Shashank Siripragada and Jerin Philip and Vinay P. Namboodiri and C V Jawahar}, year={2020}, eprint={2007.07691}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @vasudevgupta7 添加了该数据集。