模型:
aubmindlab/bert-large-arabertv02-twitter
AraBERTv0.2-Twitter-base/large是用于阿拉伯方言和推文的两个新模型,通过对大约6000万条阿拉伯推文(从1亿条的集合中筛选出来)进行MLM任务的预训练来继续进行预训练。
在这两个新模型中,除了最初不存在的常见词汇外,还添加了表情符号到词汇表中。预训练仅针对最大句子长度为64进行了1个时期。
AraBERT是一种基于 Google's BERT architechture 的阿拉伯预训练语言模型。AraBERT使用相同的BERT-Base配置。有关更多详细信息,请参阅 AraBERT Paper 和 AraBERT Meetup 。
Model | HuggingFace Model Name | Size (MB/Params) | Pre-Segmentation | DataSet (Sentences/Size/nWords) |
---|---|---|---|---|
AraBERTv0.2-base | 1235321 | 543MB / 136M | No | 200M / 77GB / 8.6B |
AraBERTv0.2-large | 1236321 | 1.38G / 371M | No | 200M / 77GB / 8.6B |
AraBERTv2-base | 1237321 | 543MB / 136M | Yes | 200M / 77GB / 8.6B |
AraBERTv2-large | 1238321 | 1.38G / 371M | Yes | 200M / 77GB / 8.6B |
AraBERTv0.1-base | 1239321 | 543MB / 136M | No | 77M / 23GB / 2.7B |
AraBERTv1-base | 12310321 | 543MB / 136M | Yes | 77M / 23GB / 2.7B |
AraBERTv0.2-Twitter-base | 12311321 | 543MB / 136M | No | Same as v02 + 60M Multi-Dialect Tweets |
AraBERTv0.2-Twitter-large | 12312321 | 1.38G / 371M | No | Same as v02 + 60M Multi-Dialect Tweets |
该模型在序列长度为64的情况下进行训练,使用超过64个字符的最大长度可能会导致性能下降。
在训练/测试任何数据集之前,建议先应用我们的预处理函数。当与“twitter”模型一起使用时,预处理器将保留并对表情符号进行间隔。
from arabert.preprocess import ArabertPreprocessor from transformers import AutoTokenizer, AutoModelForMaskedLM model_name="aubmindlab/bert-base-arabertv02-twitter" arabert_prep = ArabertPreprocessor(model_name=model_name) text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري" arabert_prep.preprocess(text) tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv02-twitter") model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv02-twitter")
谷歌学术对我们的Bibtex引用有误(缺少名称),请使用这个引用。
@inproceedings{antoun2020arabert, title={AraBERT: Transformer-based Model for Arabic Language Understanding}, author={Antoun, Wissam and Baly, Fady and Hajj, Hazem}, booktitle={LREC 2020 Workshop Language Resources and Evaluation Conference 11--16 May 2020}, pages={9} }
感谢TensorFlow Research Cloud(TFRC)为免费提供Cloud TPU的访问权限,没有这个计划我们无法完成此项目,还要感谢 AUB MIND Lab 团队对我们持续的支持。同时感谢 Yakshof 和Assafir提供的数据和存储访问权限。特别感谢Habib Rahal( https://www.behance.net/rahalhabib ),为AraBERT树立了一个形象。
Wissam Antoun : Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly : Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com