数据集:
ai4bharat/samanantar
计算机处理:
translation语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:2104.05596许可:
cc-by-nc-4.0Samanantar是印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语)最大的公开可用平行语料库集合。
该语料库包含英语到印度语言之间的4960万个句子对。
[需要更多信息]
Samanantar包含英语(en)和11种印度语言之间的平行句子:
{ 'idx': 0, 'src': 'Prime Minister Narendra Modi met Her Majesty Queen Maxima of the Kingdom of the Netherlands today.', 'tgt': 'নতুন দিল্লিতে সোমবার প্রধানমন্ত্রী শ্রী নরেন্দ্র মোদীর সঙ্গে নেদারন্যান্ডসের মহারানী ম্যাক্সিমা সাক্ষাৎ করেন।', 'data_source': 'pmi' }
[需要更多信息]
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Creative Commons Attribution-NonCommercial 4.0 International .
@misc{ramesh2021samanantar, title={Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages}, author={Gowtham Ramesh and Sumanth Doddapaneni and Aravinth Bheemaraj and Mayank Jobanputra and Raghavan AK and Ajitesh Sharma and Sujit Sahoo and Harshita Diddee and Mahalakshmi J and Divyanshu Kakwani and Navneet Kumar and Aswin Pradeep and Srihari Nagaraj and Kumar Deepak and Vivek Raghavan and Anoop Kunchukuttan and Pratyush Kumar and Mitesh Shantadevi Khapra}, year={2021}, eprint={2104.05596}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @albertvillanova 添加此数据集。