数据集:

cfilt/iitb-english-hindi

英文

IITB-英汉平行语料库

关于

IIT孟买英汉语料库包含了从多个现有来源和孟买印度语言技术中心(IIT Bombay)创建的多语种印地语语料库中收集的 英汉平行语料库以及单语印地语。这个页面描述了这个语料库。自2016年以来,该语料库已被用在亚洲语言翻译共享任务研讨会上,用于印地语到英语和英语到印地语语言对,以及印地语到日语和日语到印地语语言对的枢纽语言对。

该语料库的完整详细信息可在 this URL 处获取。我们还通过同一URL提供该平行语料库的浏览器下载。我们还在相同的URL上提供了一个单语印地语语料库。

最新更新

  • 版本 3.1 - 2021 年 12 月 - 向平行语料库中添加了 49,400 个句对。
  • 版本 3.0 - 2020 年 8 月 - 向平行语料库中添加了约 47,000 个句对。

使用方法

我们提供了一个笔记本,展示了如何从HuggingFace数据集存储库中导入IITB英汉平行语料库。该笔记本还展示了如何使用BPE分词对语料库进行分段,这可用于训练英汉机器翻译系统。 https://github.com/cfiltnlp/IITB-English-Hindi-PC

其他

您可以在这里找到其他英汉和其他印度语言平行语料库的目录: Indic NLP Catalog

维护者

Diptesh Kanojia Shivam Mhasker

引用

如果您在研究中使用了这个语料库或其相关资源,请按以下方式引用:

Anoop Kunchukuttan,Pratik Mehta,Pushpak Bhattacharyya。The IIT Bombay English-Hindi Parallel Corpus. Language Resources and Evaluation Conference. 2018.

BiBTeX 引用

@inproceedings{kunchukuttan-etal-2018-iit,
    title = "The {IIT} {B}ombay {E}nglish-{H}indi Parallel Corpus",
    author = "Kunchukuttan, Anoop  and
      Mehta, Pratik  and
      Bhattacharyya, Pushpak",
    booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)",
    month = may,
    year = "2018",
    address = "Miyazaki, Japan",
    publisher = "European Language Resources Association (ELRA)",
    url = "https://aclanthology.org/L18-1548",
}