英文

Arabic BERT Large Model

预训练的阿拉伯BERT大型语言模型

如果您在工作中使用此模型,请引用此论文:

@inproceedings{safaya-etal-2020-kuisail,
    title = "{KUISAIL} at {S}em{E}val-2020 Task 12: {BERT}-{CNN} for Offensive Speech Identification in Social Media",
    author = "Safaya, Ali  and
      Abdullatif, Moutasem  and
      Yuret, Deniz",
    booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
    month = dec,
    year = "2020",
    address = "Barcelona (online)",
    publisher = "International Committee for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.semeval-1.271",
    pages = "2054--2059",
}

预训练语料库

arabic-bert-large模型在近82亿个字的数据上进行了预训练:

  • 来自 Common Crawl 的阿拉伯语版本 - 经过过滤
  • 最新的阿拉伯语数据倾倒

这些数据与其他阿拉伯资源合计约95GB的文本。

训练数据说明:

  • 我们的最终语料库中包含一些非阿拉伯语单词,我们没有从句子中删除它们,因为这将影响到一些任务,如命名实体识别。
  • 尽管非阿拉伯字符在预处理步骤中被小写处理,但由于阿拉伯字符没有大小写之分,因此没有大小写版本的模型。
  • 该语料库和词汇表不仅限于现代标准阿拉伯语,还包含一些方言阿拉伯语。

预训练细节

  • 该模型使用了Google BERT的github repository 在一个免费提供的TPU v3-8上进行训练。
  • 我们的预训练程序遵循BERT的训练设置,但进行了一些更改: 训练了3M个训练步骤,批量大小为128,而不是1M个训练步骤,批量大小为256。

加载预训练模型

您可以通过安装torch或tensorflow和Huggingface库transformers使用此模型。您可以直接通过像这样初始化它:

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("asafaya/bert-large-arabic")
model = AutoModelForMaskedLM.from_pretrained("asafaya/bert-large-arabic")

结果

有关模型性能的更多细节或其他查询,请参阅 Arabic-BERT

致谢

感谢Google提供免费的TPU进行训练,并感谢Huggingface在其服务器上托管此模型 ?