模型:
dccuchile/bert-base-spanish-wwm-uncased
BETO 是一个在一个特定语料库上训练得到的西班牙语 BERT 模型。BETO 与 BERT-Base 的规模相当,并且使用了整词掩码技术进行训练。下面提供了不分大小写版本以及有大小写的版本的 Tensorflow 和 Pytorch 检查点,还提供了一些用 BETO 与其他模型(不一定是基于 BERT 的模型)在西班牙语基准测试上的结果对比。
BETO uncased | 1234321 | 1235321 | vocab , config |
BETO cased | 1236321 | 1237321 | vocab , config |
所有模型使用了约 31k 个 BPE 子词的词汇表,并使用 SentencePiece 进行构建,经过 200 万个步骤进行训练。
下表显示了 BETO 在每个任务的西班牙语版本上的一些结果。我们将 BETO(有大小写和无大小写)与我们在文献中找到的最佳多语言 BERT 结果进行了对比。表中还展示了一些同一任务的其他方法(不一定是基于 BERT 的方法)。关于所有方法的参考资料可以在此处找到。
Task | BETO-cased | BETO-uncased | Best Multilingual BERT | Other results |
---|---|---|---|---|
1238321 | 98.97 | 98.44 | 97.10 [2] | 98.91 [6], 96.71 [3] |
1239321 | 12310321 | 82.67 | 87.38 [2] | 87.18 [3] |
12311321 | 12312321 | 12313321 | 95.70 [2] | 88.75 [4] |
12314321 | 89.05 | 89.55 | 90.70 [8] | |
12315321 | 82.01 | 80.15 | 78.50 [2] | 80.80 [5], 77.80 [1], 73.15 [4] |
如果想了解如何使用 BETO 的更多细节,请访问 ?Huggingface Transformers library 的网站,并从 Quickstart section 开始。BETO 模型可以通过使用 Transformers 库简单地访问,其模型名称为 'dccuchile/bert-base-spanish-wwm-cased' 和 'dccuchile/bert-base-spanish-wwm-uncased' 。关于如何下载和使用本页面上的模型的示例可以在 this colab notebook 中找到。(我们将很快添加一个更详细的逐步教程,用于新手入门?)
我们感谢 Adereso 提供对 BETO-uncased 的训练支持,以及提供对 BETO-cased 训练支持的 Millennium Institute for Foundational Research on Data 。还要感谢 Google 提供的 TensorFlow Research Cloud 计划的帮助。
Spanish Pre-Trained BERT Model and Evaluation Data
如果要在出版物中引用此资源,请使用以下引用格式:
@inproceedings{CaneteCFP2020, title={Spanish Pre-Trained BERT Model and Evaluation Data}, author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge}, booktitle={PML4DC at ICLR 2020}, year={2020} }
授权许可 CC BY 4.0 最能准确地描述我们的工作意图。然而,我们不确定用于训练 BETO 的所有数据集的许可是否与 CC BY 4.0 兼容(特别是商业用途)。请自行斟酌使用,并验证原始文本资源的许可是否符合您的需求。