模型:
aubmindlab/bert-base-arabertv02-twitter
AraBERTv0.2-Twitter-base/large是用继续在约6,000万条阿拉伯推文(从1亿条推文集合中筛选)上使用MLM任务进行预训练而训练的用于阿拉伯方言和推文的两个新模型。
这两个新模型除了最初不存在的常见词汇外,还将表情符号添加到了其词汇表中。预训练只进行了1个轮次,句子长度最大为64。
AraBERT是基于 Google's BERT architechture 的阿拉伯预训练语言模型。AraBERT使用相同的BERT-Base配置。有关更多详细信息,请参阅 AraBERT Paper 和 AraBERT Meetup 。
Model | HuggingFace Model Name | Size (MB/Params) | Pre-Segmentation | DataSet (Sentences/Size/nWords) |
---|---|---|---|---|
AraBERTv0.2-base | 1235321 | 543MB / 136M | No | 200M / 77GB / 8.6B |
AraBERTv0.2-large | 1236321 | 1.38G / 371M | No | 200M / 77GB / 8.6B |
AraBERTv2-base | 1237321 | 543MB / 136M | Yes | 200M / 77GB / 8.6B |
AraBERTv2-large | 1238321 | 1.38G / 371M | Yes | 200M / 77GB / 8.6B |
AraBERTv0.1-base | 1239321 | 543MB / 136M | No | 77M / 23GB / 2.7B |
AraBERTv1-base | 12310321 | 543MB / 136M | Yes | 77M / 23GB / 2.7B |
AraBERTv0.2-Twitter-base | 12311321 | 543MB / 136M | No | Same as v02 + 60M Multi-Dialect Tweets |
AraBERTv0.2-Twitter-large | 12312321 | 1.38G / 371M | No | Same as v02 + 60M Multi-Dialect Tweets |
该模型在序列长度为64的情况下进行训练,使用超过64的最大长度可能导致性能下降。
建议在训练/测试任何数据集之前应用我们的预处理函数。当与“twitter”模型一起使用时,预处理器将保留并为表情符号留出空格。
from arabert.preprocess import ArabertPreprocessor from transformers import AutoTokenizer, AutoModelForMaskedLM model_name="aubmindlab/bert-base-arabertv02-twitter" arabert_prep = ArabertPreprocessor(model_name=model_name) text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري" arabert_prep.preprocess(text) tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter") model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
谷歌学术中我们的Bibtex有误(缺少名称),请使用以下内容替代。
@inproceedings{antoun2020arabert, title={AraBERT: Transformer-based Model for Arabic Language Understanding}, author={Antoun, Wissam and Baly, Fady and Hajj, Hazem}, booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020}, pages={9} }
感谢谷歌研究云(TFRC)提供免费使用云TPU的机会,没有该计划的支持我们无法完成这项工作,感谢 AUB MIND Lab 团队的持续支持。还要感谢 Yakshof 和 Assafir 提供数据和存储访问权限。另外要感谢 Habib Rahal( https://www.behance.net/rahalhabib ),为 AraBERT 赋予了面孔。
Wissam Antoun: Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly: Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com