英文

MuRIL: 印度语言的多语言表示

MuRIL是一个在17种印度语言及其音译对应词上进行预训练的BERT模型。我们在这个存储库中发布了预训练模型(保留了MLM层,使得能够对被掩盖的单词进行预测)。我们还发布了带有额外预处理模块的编码器,该模块将原始文本处理成编码器期望的输入格式。您可以在此 查找有关MuRIL的更多详细信息。

概述

这个模型使用了BERT基础架构[1],通过使用Wikipedia [2],Common Crawl [3],PMINDIA [4]和Dakshina [5]语料库来对17种[6]印度语言进行了从头开始的预训练。

我们使用了类似于多语言BERT的训练范式,但作了一些修改,具体如下:

  • 我们还包括翻译和音译的片段对进行训练。
  • 我们将指数值设置为0.3,而不是0.7,以进行上采样,这被证明可以增强低资源性能。[7]

更多细节请参考训练部分。

训练

MuRIL模型被预训练了monolingual segments和parallel segments,具体如下:

  • 单语言数据:我们使用来自Wikipedia和Common Crawl的公开可用语料库,涵盖17种印度语言。
  • 平行数据:我们有两类平行数据:
    • 翻译数据:我们使用Google NMT管道翻译了上述单语语料库,将翻译的片段对作为输入。我们还使用了公开可用的PMINDIA语料库。
    • 音译数据:我们使用IndicTrans [8]库对Wikipedia进行音译处理,将音译的片段对作为输入。我们还使用了公开可用的Dakshina数据集。

对于计算上采样的重复因子,我们将指数值设置为0.3,并相应地设置了duplication multiplier值,注意,我们限制音译对仅针对Wikipedia。

模型使用了自监督的掩码语言建模任务进行训练。我们进行整词掩码,并且最多预测80个单词。模型进行了1000K步的训练,批量大小为4096,最大序列长度为512。

可训练参数

模块中的所有参数都是可训练的,推荐将所有参数进行微调。

使用和限制

这个模型旨在用于印度语言的各种下游NLP任务。该模型也使用了音译数据,这在印度语言环境中很常见。预计该模型在预训练时使用的印度语言之外的语言上表现不佳,即17种印度语言之外的其他语言。

评估

我们提供了将该模型微调到一组下游任务上的结果。我们从XTREME基准中选择这些任务,并在印度语言的测试集上进行评估。我们还对测试集进行了音译处理,并在音译版本上进行评估。我们使用与[9]相同的微调设置,但对于TyDiQA,我们使用了额外的SQuAD v1.1英语训练数据,类似于[10]。对于Tatoeba,我们不对模型进行微调,并使用最后一层的pooled_output作为句子嵌入。所有结果都是在零样本设置下计算的,其中英语是高资源训练集语言。

  • 下面是从XTREME基准数据集上的结果(以%表示)

    PANX (F1) ml ta te en bn hi mr ur Average
    mBERT 54.77 51.24 50.16 84.40 68.59 65.13 58.44 31.36 58.01
    MuRIL 75.74 71.86 64.99 84.43 85.97 78.09 74.63 85.07 77.60
    UDPOS (F1) en hi mr ta te ur Average
    mBERT 95.35 66.09 71.27 59.58 76.98 57.85 71.19
    MuRIL 95.55 64.47 82.95 62.57 85.63 58.93 75.02
    XNLI (Accuracy) en hi ur Average
    mBERT 81.72 60.52 58.20 66.81
    MuRIL 83.85 70.66 67.70 74.07
    Tatoeba (Accuracy) ml ta te bn hi mr ur Average
    mBERT 20.23 12.38 14.96 12.80 27.80 18.00 22.70 18.41
    MuRIL 26.35 36.81 17.52 20.20 31.50 26.60 17.10 25.15
    XQUAD (F1/EM) en hi Average
    mBERT 83.85/72.86 58.46/43.53 71.15/58.19
    MuRIL 84.31/72.94 73.93/58.32 79.12/65.63
    MLQA (F1/EM) en hi Average
    mBERT 80.39/67.30 50.28/35.18 65.34/51.24
    MuRIL 80.28/67.37 67.34/50.22 73.81/58.80
    TyDiQA (F1/EM) en bn te Average
    mBERT 75.21/65.00 60.62/45.13 53.55/44.54 63.13/51.66
    MuRIL 74.10/64.55 78.03/66.37 73.95/46.94 75.36/59.28
  • 下面是上述测试集的音译版本上的结果。

    PANX (F1) ml_tr ta_tr te_tr bn_tr hi_tr mr_tr ur_tr Average
    mBERT 7.53 1.04 8.24 41.77 25.46 8.34 7.30 14.24
    MuRIL 63.39 7.00 53.62 72.94 69.75 68.77 68.41 57.70
    UDPOS (F1) hi_tr mr_tr ta_tr te_tr ur_tr Average
    mBERT 25.00 33.67 24.02 36.21 22.07 28.20
    MuRIL 63.09 67.19 58.40 65.30 56.49 62.09
    XNLI (Accuracy) hi_tr ur_tr Average
    mBERT 39.6 38.86 39.23
    MuRIL 68.24 61.16 64.70
    Tatoeba (Accuracy) ml_tr ta_tr te_tr bn_tr hi_tr mr_tr ur_tr Average
    mBERT 2.18 1.95 5.13 1.80 3.00 2.40 2.30 2.68
    MuRIL 10.33 11.07 11.54 8.10 14.90 7.20 13.70 10.98

参考文献

[1]: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding .arXiv预印本arXiv:1810.04805, 2018.

[2]: Wikipedia

[3]: Common Crawl

[4]: PMINDIA

[5]: Dakshina

[6]: 阿萨姆语(as),孟加拉语(bn),英语(en),古吉拉特语(gu),印地语(hi),卡纳达语(kn),克什米尔语(ks),马拉雅拉姆语(ml),马拉地语(mr),尼泊尔语(ne),奥里亚语(or),旁遮普语(pa),梵语(sa),信德语(sd),泰米尔语(ta),泰卢固语(te)和乌尔都语(ur)。

[7]: Conneau, Alexis, et al. Unsupervised cross-lingual representation learning at scale .arXiv预印本arXiv:1911.02116 (2019).

[8]: IndicTrans

[9]: Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M.(2020). Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization. arXiv预印本arXiv:2003.11080.

[10]: Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. arXiv预印本arXiv:2009.05166.

引用

如果您在应用程序中使用MuRIL,请引用以下论文:

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

联系

请将您的疑问/反馈发送至muril-contact@google.com。