AraBERTv0.2-Twitter

AraBERTv0.2-Twitter-base/large是用继续在约6,000万条阿拉伯推文（从1亿条推文集合中筛选）上使用MLM任务进行预训练而训练的用于阿拉伯方言和推文的两个新模型。

这两个新模型除了最初不存在的常见词汇外，还将表情符号添加到了其词汇表中。预训练只进行了1个轮次，句子长度最大为64。

AraBERT是基于 Google's BERT architechture 的阿拉伯预训练语言模型。AraBERT使用相同的BERT-Base配置。有关更多详细信息，请参阅 AraBERT Paper 和 AraBERT Meetup 。

其他模型

Model	HuggingFace Model Name	Size (MB/Params)	Pre-Segmentation	DataSet (Sentences/Size/nWords)
AraBERTv0.2-base	1235321	543MB / 136M	No	200M / 77GB / 8.6B
AraBERTv0.2-large	1236321	1.38G / 371M	No	200M / 77GB / 8.6B
AraBERTv2-base	1237321	543MB / 136M	Yes	200M / 77GB / 8.6B
AraBERTv2-large	1238321	1.38G / 371M	Yes	200M / 77GB / 8.6B
AraBERTv0.1-base	1239321	543MB / 136M	No	77M / 23GB / 2.7B
AraBERTv1-base	12310321	543MB / 136M	Yes	77M / 23GB / 2.7B
AraBERTv0.2-Twitter-base	12311321	543MB / 136M	No	Same as v02 + 60M Multi-Dialect Tweets
AraBERTv0.2-Twitter-large	12312321	1.38G / 371M	No	Same as v02 + 60M Multi-Dialect Tweets

预处理

该模型在序列长度为64的情况下进行训练，使用超过64的最大长度可能导致性能下降。

建议在训练/测试任何数据集之前应用我们的预处理函数。当与“twitter”模型一起使用时，预处理器将保留并为表情符号留出空格。

from arabert.preprocess import ArabertPreprocessor
from transformers import AutoTokenizer, AutoModelForMaskedLM

model_name="aubmindlab/bert-base-arabertv02-twitter"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)
  
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")

如果您使用了此模型，请引用我们：

谷歌学术中我们的Bibtex有误（缺少名称），请使用以下内容替代。

@inproceedings{antoun2020arabert,
  title={AraBERT: Transformer-based Model for Arabic Language Understanding},
  author={Antoun, Wissam and Baly, Fady and Hajj, Hazem},
  booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020},
  pages={9}
}

致谢

感谢谷歌研究云（TFRC）提供免费使用云TPU的机会，没有该计划的支持我们无法完成这项工作，感谢 AUB MIND Lab 团队的持续支持。还要感谢 Yakshof 和 Assafir 提供数据和存储访问权限。另外要感谢 Habib Rahal（ https://www.behance.net/rahalhabib ），为 AraBERT 赋予了面孔。

联系方式

Wissam Antoun： Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com

Fady Baly： Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com

作者:

AUB MIND LAB

数据集大小:

1.01 GB