英文

阿拉伯-ALBERT Base

ALBERT Base的阿拉伯语版本预训练语言模型

如果您在工作中使用了这些模型,请引用此作品:

@software{ali_safaya_2020_4718724,
  author       = {Ali Safaya},
  title        = {Arabic-ALBERT},
  month        = aug,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {1.0.0},
  doi          = {10.5281/zenodo.4718724},
  url          = {https://doi.org/10.5281/zenodo.4718724}
}

预训练数据

这些模型是在大约44亿个单词上进行预训练的:

关于训练数据的注释:

  • 我们最终的语料库版本包含了一些非阿拉伯语的单词,我们没有从句子中删除这些单词,因为那会影响NER等任务。
  • 尽管非阿拉伯字符在预处理步骤中被小写处理,但由于阿拉伯字符没有大小写之分,因此模型没有大小写版本。
  • 语料库和词汇集不限于现代标准阿拉伯语,其中包含一些方言阿拉伯语。

预训练详情

  • 这些模型使用Google ALBERT的github repository 在一个免费提供的TPU v3-8上进行训练。
  • 我们的预训练过程遵循了BERT的训练设置,但有一些变化:训练步骤为700万,批大小为64,而不是12.5万,批大小为4096。

模型

albert-base albert-large albert-xlarge
Hidden Layers 12 24 24
Attention heads 12 16 32
Hidden size 768 1024 2048

结果

有关模型性能或其他任何查询的详细信息,请参阅 Arabic-ALBERT

如何使用

您可以通过安装torch或tensorflow和Huggingface库transformers来使用这些模型。您可以像这样直接初始化模型:

from transformers import AutoTokenizer, AutoModel

# loading the tokenizer
base_tokenizer    = AutoTokenizer.from_pretrained("kuisailab/albert-base-arabic")

# loading the model
base_model   = AutoModelForMaskedLM.from_pretrained("kuisailab/albert-base-arabic")

致谢

感谢Google为训练过程提供免费的TPU,并感谢Huggingface在其服务器上托管这些模型 ?