英文

BETO: 西班牙语 BERT

BETO 是一个在一个特定语料库上训练得到的西班牙语 BERT 模型。BETO 与 BERT-Base 的规模相当,并且使用了整词掩码技术进行训练。下面提供了不分大小写版本以及有大小写的版本的 Tensorflow 和 Pytorch 检查点,还提供了一些用 BETO 与其他模型(不一定是基于 BERT 的模型)在西班牙语基准测试上的结果对比。

下载

BETO uncased 1234321 1235321 vocab , config
BETO cased 1236321 1237321 vocab , config

所有模型使用了约 31k 个 BPE 子词的词汇表,并使用 SentencePiece 进行构建,经过 200 万个步骤进行训练。

基准测试

下表显示了 BETO 在每个任务的西班牙语版本上的一些结果。我们将 BETO(有大小写和无大小写)与我们在文献中找到的最佳多语言 BERT 结果进行了对比。表中还展示了一些同一任务的其他方法(不一定是基于 BERT 的方法)。关于所有方法的参考资料可以在此处找到。

Task BETO-cased BETO-uncased Best Multilingual BERT Other results
1238321 98.97 98.44 97.10 [2] 98.91 [6], 96.71 [3]
1239321 12310321 82.67 87.38 [2] 87.18 [3]
12311321 12312321 12313321 95.70 [2] 88.75 [4]
12314321 89.05 89.55 90.70 [8]
12315321 82.01 80.15 78.50 [2] 80.80 [5], 77.80 [1], 73.15 [4]

使用示例

如果想了解如何使用 BETO 的更多细节,请访问 ?Huggingface Transformers library 的网站,并从 Quickstart section 开始。BETO 模型可以通过使用 Transformers 库简单地访问,其模型名称为 'dccuchile/bert-base-spanish-wwm-cased' 'dccuchile/bert-base-spanish-wwm-uncased' 。关于如何下载和使用本页面上的模型的示例可以在 this colab notebook 中找到。(我们将很快添加一个更详细的逐步教程,用于新手入门?)

致谢

我们感谢 Adereso 提供对 BETO-uncased 的训练支持,以及提供对 BETO-cased 训练支持的 Millennium Institute for Foundational Research on Data 。还要感谢 Google 提供的 TensorFlow Research Cloud 计划的帮助。

引用

Spanish Pre-Trained BERT Model and Evaluation Data

如果要在出版物中引用此资源,请使用以下引用格式:

@inproceedings{CaneteCFP2020,
  title={Spanish Pre-Trained BERT Model and Evaluation Data},
  author={Cañete, José and Chaperon, Gabriel and Fuentes, Rodrigo and Ho, Jou-Hui and Kang, Hojin and Pérez, Jorge},
  booktitle={PML4DC at ICLR 2020},
  year={2020}
}

许可声明

授权许可 CC BY 4.0 最能准确地描述我们的工作意图。然而,我们不确定用于训练 BETO 的所有数据集的许可是否与 CC BY 4.0 兼容(特别是商业用途)。请自行斟酌使用,并验证原始文本资源的许可是否符合您的需求。

参考资料