英文

AraBERTv0.2-Twitter

AraBERTv0.2-Twitter-base/large是用继续在约6,000万条阿拉伯推文(从1亿条推文集合中筛选)上使用MLM任务进行预训练而训练的用于阿拉伯方言和推文的两个新模型。

这两个新模型除了最初不存在的常见词汇外,还将表情符号添加到了其词汇表中。预训练只进行了1个轮次,句子长度最大为64。

AraBERT是基于 Google's BERT architechture 的阿拉伯预训练语言模型。AraBERT使用相同的BERT-Base配置。有关更多详细信息,请参阅 AraBERT Paper AraBERT Meetup

其他模型

Model HuggingFace Model Name Size (MB/Params) Pre-Segmentation DataSet (Sentences/Size/nWords)
AraBERTv0.2-base 1235321 543MB / 136M No 200M / 77GB / 8.6B
AraBERTv0.2-large 1236321 1.38G / 371M No 200M / 77GB / 8.6B
AraBERTv2-base 1237321 543MB / 136M Yes 200M / 77GB / 8.6B
AraBERTv2-large 1238321 1.38G / 371M Yes 200M / 77GB / 8.6B
AraBERTv0.1-base 1239321 543MB / 136M No 77M / 23GB / 2.7B
AraBERTv1-base 12310321 543MB / 136M Yes 77M / 23GB / 2.7B
AraBERTv0.2-Twitter-base 12311321 543MB / 136M No Same as v02 + 60M Multi-Dialect Tweets
AraBERTv0.2-Twitter-large 12312321 1.38G / 371M No Same as v02 + 60M Multi-Dialect Tweets

预处理

该模型在序列长度为64的情况下进行训练,使用超过64的最大长度可能导致性能下降。

建议在训练/测试任何数据集之前应用我们的预处理函数。当与“twitter”模型一起使用时,预处理器将保留并为表情符号留出空格。

from arabert.preprocess import ArabertPreprocessor
from transformers import AutoTokenizer, AutoModelForMaskedLM

model_name="aubmindlab/bert-base-arabertv02-twitter"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
  
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")

如果您使用了此模型,请引用我们:

谷歌学术中我们的Bibtex有误(缺少名称),请使用以下内容替代。

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

致谢

感谢谷歌研究云(TFRC)提供免费使用云TPU的机会,没有该计划的支持我们无法完成这项工作,感谢 AUB MIND Lab 团队的持续支持。还要感谢 Yakshof 和 Assafir 提供数据和存储访问权限。另外要感谢 Habib Rahal( https://www.behance.net/rahalhabib ),为 AraBERT 赋予了面孔。

联系方式

Wissam Antoun: Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com

Fady Baly: Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com