英文

AraBERT v1 & v2: 面向阿拉伯语理解的预训练BERT

AraBERT是基于BERT-Base配置的阿拉伯语预训练语言模型。有关更多详细信息,请参阅 AraBERT Paper AraBERT Meetup

该模型有两个版本,AraBERTv0.1和AraBERTv1,不同之处在于AraBERTv1使用了经过预分词的文本,其中前缀和后缀使用了 Farasa Segmenter 进行拆分。

我们使用不同的下游任务对AraBERT模型进行评估,并将其与 mBERT 和其他现有模型进行比较(在我们的知识范围内)。这些任务包括对6个不同数据集进行情感分析( HARD ASTD-Balanced ArsenTD-Lev LABR ),使用 ANERcorp 进行命名实体识别,并在 Arabic-SQuAD and ARCD 上进行阿拉伯问答。

AraBERTv2

新的变化!

AraBERT现在有4个新变种来替代旧版本v1:

有关详细信息,请参阅AraBERT文件夹以及 README AraBERT Paper

Model HuggingFace Model Name Size (MB/Params) Pre-Segmentation DataSet (Sentences/Size/nWords)
AraBERTv0.2-base 12316321 543MB / 136M No 200M / 77GB / 8.6B
AraBERTv0.2-large 12317321 1.38G 371M No 200M / 77GB / 8.6B
AraBERTv2-base 12318321 543MB 136M Yes 200M / 77GB / 8.6B
AraBERTv2-large 12319321 1.38G 371M Yes 200M / 77GB / 8.6B
AraBERTv0.2-Twitter-base 12320321 543MB / 136M No Same as v02 + 60M Multi-Dialect Tweets
AraBERTv0.2-Twitter-large 12321321 1.38G / 371M No Same as v02 + 60M Multi-Dialect Tweets
AraBERTv0.1-base 12322321 543MB 136M No 77M / 23GB / 2.7B
AraBERTv1-base 12323321 543MB 136M Yes 77M / 23GB / 2.7B

所有模型都可以在HuggingFace模型页面上以 aubmindlab 名称找到。检查点可用PyTorch、TF2和TF1格式下载。

更好的预处理和新的词表

我们发现AraBERTv1的词片段词汇存在问题。该问题来自于在学习词片段词汇时,数字和标点符号仍与单词相连。我们现在在数字和字符之间以及标点符号字符周围插入空格。

新词汇是使用tokenizers库的BertWordpieceTokenizer进行学习的,现在应支持transformers库的Fast tokenizer实现。

P.S.:所有旧的BERT代码都应该适用于新的BERT,只需更改模型名称并检查新的预处理函数。请阅读有关如何使用预处理函数的部分。

更大的数据集和更多的计算

我们使用了大约3.5倍的数据,并进行了更长时间的训练。数据集来源请参见数据集部分。

Model Hardware num of examples with seq len (128 / 512) 128 (Batch Size/ Num of Steps) 512 (Batch Size/ Num of Steps) Total Steps Total Time (in Days)
AraBERTv0.2-base TPUv3-8 420M / 207M 2560 / 1M 384/ 2M 3M -
AraBERTv0.2-large TPUv3-128 420M / 207M 13440 / 250K 2056 / 300K 550K 7
AraBERTv2-base TPUv3-8 420M / 207M 2560 / 1M 384/ 2M 3M -
AraBERTv2-large TPUv3-128 520M / 245M 13440 / 250K 2056 / 300K 550K 7
AraBERT-base (v1/v0.1) TPUv2-8 - 512 / 900K 128 / 300K 1.2M 4

数据集

新AraBERT模型的预训练数据还用于阿拉伯GPT2和ELECTRA。

该数据集包含77GB或200,095,961行或8,655,948,860个单词或82,232,988,358个字符(在应用Farasa分词之前)。

对于新数据集,我们将未打乱的OSCAR语料库添加到之前用于AraBERTv1的数据集中,但去掉了之前我们爬取的网站:

预处理

建议在对任何数据集进行训练/测试之前应用我们的预处理函数。

安装arabert Python包以对AraBERT v1 & v2进行文本分段或清理数据pip install arabert

from arabert.preprocess import ArabertPreprocessor

model_name="aubmindlab/bert-large-arabertv2"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
>>>"و+ لن نبالغ إذا قل +نا إن هاتف أو كمبيوتر ال+ مكتب في زمن +نا هذا ضروري"

TensorFlow 1.x模型

TF1.x模型可在HuggingFace模型存储库中找到。您可以按以下方式下载它们:

  • 通过git-lfs:克隆存储库中的所有模型
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
git clone https://huggingface.co/aubmindlab/MODEL_NAME
tar -C ./MODEL_NAME -zxvf /content/MODEL_NAME/tf1_model.tar.gz

其中MODEL_NAME是命名为aubmindlab的任何模型

  • 通过wget:
    • 转到huggingface.co/models/aubmindlab/MODEL_NAME上的tf1_model.tar.gz文件。
    • 复制oid sha256。
    • 然后运行wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/INSERT_THE_SHA_HERE(例如,对于aragpt2-base:wget https://cdn-lfs.huggingface.co/aubmindlab/aragpt2-base/3766fc03d7c2593ff2fb991d275e96b81b0ecb2098b71ff315611d052ce65248)

如果您使用了此模型,请引用我们:

谷歌学术的Bibtex引用格式有误(缺少姓名),请使用此引用格式。

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

致谢

感谢TensorFlow Research Cloud(TFRC)提供免费的Cloud TPU访问权限,没有此计划我们将无法完成这项工作,并感谢 AUB MIND Lab 成员的持续支持。还要感谢 Yakshof 和Assafir提供的数据和存储访问权限。还要感谢Habib Rahal( https://www.behance.net/rahalhabib )为AraBERT做出的贡献。

联系方式

Wissam Antoun: Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com

Fady Baly: Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com