模型:

google/muril-base-cased

任务:

填充掩码

类库:

PyTorch TensorFlow JAX Transformers

其他:

bert AutoTrain Compatible

预印本库:

arxiv:2103.10730 arxiv:1810.04805 arxiv:1911.02116 arxiv:2003.11080 arxiv:2009.05166

许可:

apache-2.0

模型介绍文件清单

英文

MuRIL: 印度语言的多语言表示

MuRIL是一个在17种印度语言及其音译对应词上进行预训练的BERT模型。我们在这个存储库中发布了预训练模型（保留了MLM层，使得能够对被掩盖的单词进行预测）。我们还发布了带有额外预处理模块的编码器，该模块将原始文本处理成编码器期望的输入格式。您可以在此查找有关MuRIL的更多详细信息。

概述

这个模型使用了BERT基础架构[1]，通过使用Wikipedia [2]，Common Crawl [3]，PMINDIA [4]和Dakshina [5]语料库来对17种[6]印度语言进行了从头开始的预训练。

我们使用了类似于多语言BERT的训练范式，但作了一些修改，具体如下：

我们还包括翻译和音译的片段对进行训练。
我们将指数值设置为0.3，而不是0.7，以进行上采样，这被证明可以增强低资源性能。[7]

更多细节请参考训练部分。

训练

MuRIL模型被预训练了monolingual segments和parallel segments，具体如下：

单语言数据：我们使用来自Wikipedia和Common Crawl的公开可用语料库，涵盖17种印度语言。
平行数据：我们有两类平行数据：
- 翻译数据：我们使用Google NMT管道翻译了上述单语语料库，将翻译的片段对作为输入。我们还使用了公开可用的PMINDIA语料库。
- 音译数据：我们使用IndicTrans [8]库对Wikipedia进行音译处理，将音译的片段对作为输入。我们还使用了公开可用的Dakshina数据集。

对于计算上采样的重复因子，我们将指数值设置为0.3，并相应地设置了duplication multiplier值，注意，我们限制音译对仅针对Wikipedia。

模型使用了自监督的掩码语言建模任务进行训练。我们进行整词掩码，并且最多预测80个单词。模型进行了1000K步的训练，批量大小为4096，最大序列长度为512。

可训练参数

模块中的所有参数都是可训练的，推荐将所有参数进行微调。

使用和限制

这个模型旨在用于印度语言的各种下游NLP任务。该模型也使用了音译数据，这在印度语言环境中很常见。预计该模型在预训练时使用的印度语言之外的语言上表现不佳，即17种印度语言之外的其他语言。

评估

我们提供了将该模型微调到一组下游任务上的结果。我们从XTREME基准中选择这些任务，并在印度语言的测试集上进行评估。我们还对测试集进行了音译处理，并在音译版本上进行评估。我们使用与[9]相同的微调设置，但对于TyDiQA，我们使用了额外的SQuAD v1.1英语训练数据，类似于[10]。对于Tatoeba，我们不对模型进行微调，并使用最后一层的pooled_output作为句子嵌入。所有结果都是在零样本设置下计算的，其中英语是高资源训练集语言。

下面是从XTREME基准数据集上的结果（以%表示）

PANX (F1)	ml	ta	te	en	bn	hi	mr	ur	Average
mBERT	54.77	51.24	50.16	84.40	68.59	65.13	58.44	31.36	58.01
MuRIL	75.74	71.86	64.99	84.43	85.97	78.09	74.63	85.07	77.60

UDPOS (F1)	en	hi	mr	ta	te	ur	Average
mBERT	95.35	66.09	71.27	59.58	76.98	57.85	71.19
MuRIL	95.55	64.47	82.95	62.57	85.63	58.93	75.02

XNLI (Accuracy)	en	hi	ur	Average
mBERT	81.72	60.52	58.20	66.81
MuRIL	83.85	70.66	67.70	74.07

Tatoeba (Accuracy)	ml	ta	te	bn	hi	mr	ur	Average
mBERT	20.23	12.38	14.96	12.80	27.80	18.00	22.70	18.41
MuRIL	26.35	36.81	17.52	20.20	31.50	26.60	17.10	25.15

XQUAD (F1/EM)	en	hi	Average
mBERT	83.85/72.86	58.46/43.53	71.15/58.19
MuRIL	84.31/72.94	73.93/58.32	79.12/65.63

MLQA (F1/EM)	en	hi	Average
mBERT	80.39/67.30	50.28/35.18	65.34/51.24
MuRIL	80.28/67.37	67.34/50.22	73.81/58.80

TyDiQA (F1/EM)	en	bn	te	Average
mBERT	75.21/65.00	60.62/45.13	53.55/44.54	63.13/51.66
MuRIL	74.10/64.55	78.03/66.37	73.95/46.94	75.36/59.28

下面是上述测试集的音译版本上的结果。

PANX (F1)	ml_tr	ta_tr	te_tr	bn_tr	hi_tr	mr_tr	ur_tr	Average
mBERT	7.53	1.04	8.24	41.77	25.46	8.34	7.30	14.24
MuRIL	63.39	7.00	53.62	72.94	69.75	68.77	68.41	57.70

UDPOS (F1)	hi_tr	mr_tr	ta_tr	te_tr	ur_tr	Average
mBERT	25.00	33.67	24.02	36.21	22.07	28.20
MuRIL	63.09	67.19	58.40	65.30	56.49	62.09

XNLI (Accuracy)	hi_tr	ur_tr	Average
mBERT	39.6	38.86	39.23
MuRIL	68.24	61.16	64.70

Tatoeba (Accuracy)	ml_tr	ta_tr	te_tr	bn_tr	hi_tr	mr_tr	ur_tr	Average
mBERT	2.18	1.95	5.13	1.80	3.00	2.40	2.30	2.68
MuRIL	10.33	11.07	11.54	8.10	14.90	7.20	13.70	10.98

参考文献

[1]: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding .arXiv预印本arXiv:1810.04805, 2018.

[2]: Wikipedia

[3]: Common Crawl

[4]: PMINDIA

[5]: Dakshina

[6]: 阿萨姆语（as），孟加拉语（bn），英语（en），古吉拉特语（gu），印地语（hi），卡纳达语（kn），克什米尔语（ks），马拉雅拉姆语（ml），马拉地语（mr），尼泊尔语（ne），奥里亚语（or），旁遮普语（pa），梵语（sa），信德语（sd），泰米尔语（ta），泰卢固语（te）和乌尔都语（ur）。

[7]: Conneau, Alexis, et al. Unsupervised cross-lingual representation learning at scale .arXiv预印本arXiv:1911.02116 (2019).

[8]: IndicTrans

[9]: Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M.(2020). Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization. arXiv预印本arXiv:2003.11080.

[10]: Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. arXiv预印本arXiv:2009.05166.

引用

如果您在应用程序中使用MuRIL，请引用以下论文：

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

联系

请将您的疑问/反馈发送至muril-contact@google.com。

作者:

Google AI

数据集大小:

3.23 GB