英文

MuRIL 大型模型

印度语言的多语言表示:以17种印度语言和它们的音译对应词为预训练基础的BERT大型(24L)模型。

概述

此模型使用BERT大型架构[1]从零开始预训练,使用Wikipedia[2]、Common Crawl[3]、PMINDIA[4]和Dakshina[5]的语料库来训练17种[6]印度语言。

我们使用了类似于多语言bert的训练范式,作了以下几个修改:

  • 我们还包括了翻译和音译的片段配对进行训练。
  • 我们将指数值设为0.3,而不是0.7进行上采样,已经证明可以提高低资源语言的性能。[7]

详细信息请参见培训部分。

培训

MuRIL模型对单语段落和并行段落进行预训练,详细情况如下:

  • 单语数据:我们使用来自Wikipedia和Common Crawl的17种印度语言的公开可用的语料库。
  • 并行数据:我们有两种类型的并行数据:
    • 翻译数据:我们使用Google NMT流程对上述单语语料库进行翻译。我们以翻译的片段配对作为输入。我们还使用公开可用的PMINDIA语料库。
    • 音译数据:我们使用IndicTrans[8]库对Wikipedia进行音译。我们以音译的片段配对作为输入。我们还使用公开可用的Dakshina数据集。

我们将指数值设为0.3来计算复制倍增器值,以进行低资源语言的上采样,并相应地设置duplication factors。请注意,我们将音译对限制在仅使用Wikipedia。

该模型使用自监督的掩码语言建模任务进行训练。我们进行整词掩码,最多进行80个预测。模型进行了1500K个步骤的训练,批量大小为8192,最大序列长度为512。

可训练参数

模块中的所有参数都是可训练的,建议对所有参数进行微调。

用途和限制

此模型旨在用于印度语言的各种下游NLP任务。此模型还训练了音译数据,这是印度语境中普遍观察到的现象。此模型不适用于除了预训练中使用的17种印度语言之外的其他语言。

评估

我们提供了将此模型在一组下游任务上进行微调的结果。我们从XTREME基准测试中选择这些任务,并在印度语言测试集上进行评估。所有结果都在零-shot设置下计算,其中英语是高资源训练集语言。XLM-R(Large)的结果取自XTREME论文[9]。

  • 下面是来自XTREME基准测试数据集的结果(以%表示)

参考文献

[1]:Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding .arXiv预印本arXiv:1810.04805,2018年。

[2]: Wikipedia

[3]: Common Crawl

[4]: PMINDIA

[5]: Dakshina

[6]:阿萨姆语(as),孟加拉语(bn),英语(en),古吉拉特语(gu),印地语(hi),卡纳达语(kn),克什米尔语(ks),马拉亚拉姆语(ml),马拉地语(mr),尼泊尔语(ne),奥里亚语(or),旁遮普语(pa),梵语(sa),信德语(sd),泰米尔语(ta),特鲁古语(te)和乌尔都语(ur)。

[7]:Conneau,Alexis,等。 Unsupervised cross-lingual representation learning at scale .arXiv预印本arXiv:1911.02116(2019年)。

[8]: IndicTrans

[9]:Hu,J.,Ruder,S.,Siddhant,A.,Neubig,G.,Firat,O.,Johnson,M.(2020年)。 Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization. arXiv预印本arXiv:2003.11080。

[10]:Fang,Y.,Wang,S.,Gan,Z.,Sun,S.,刘洁(2020年)。 FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. arXiv预印本arXiv:2009.05166。

引用

如果您在应用中使用了MuRIL,请引用以下论文:

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

联系

请将您的疑问/反馈发送至muril-contact@google.com。