数据集:
cfilt/iitb-english-hindi
IIT孟买英汉语料库包含了从多个现有来源和孟买印度语言技术中心(IIT Bombay)创建的多语种印地语语料库中收集的 英汉平行语料库以及单语印地语。这个页面描述了这个语料库。自2016年以来,该语料库已被用在亚洲语言翻译共享任务研讨会上,用于印地语到英语和英语到印地语语言对,以及印地语到日语和日语到印地语语言对的枢纽语言对。
该语料库的完整详细信息可在 this URL 处获取。我们还通过同一URL提供该平行语料库的浏览器下载。我们还在相同的URL上提供了一个单语印地语语料库。
我们提供了一个笔记本,展示了如何从HuggingFace数据集存储库中导入IITB英汉平行语料库。该笔记本还展示了如何使用BPE分词对语料库进行分段,这可用于训练英汉机器翻译系统。 https://github.com/cfiltnlp/IITB-English-Hindi-PC
您可以在这里找到其他英汉和其他印度语言平行语料库的目录: Indic NLP Catalog
Diptesh Kanojia Shivam Mhasker
如果您在研究中使用了这个语料库或其相关资源,请按以下方式引用:
Anoop Kunchukuttan,Pratik Mehta,Pushpak Bhattacharyya。The IIT Bombay English-Hindi Parallel Corpus. Language Resources and Evaluation Conference. 2018.
@inproceedings{kunchukuttan-etal-2018-iit, title = "The {IIT} {B}ombay {E}nglish-{H}indi Parallel Corpus", author = "Kunchukuttan, Anoop and Mehta, Pratik and Bhattacharyya, Pushpak", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://aclanthology.org/L18-1548", }