模型:
aubmindlab/araelectra-base-generator
ELECTRA 是一种用于自监督语言表示学习的方法。可以使用相对较少的计算资源来预训练Transformer网络。ELECTRA模型通过区分由另一个神经网络生成的“真实”输入标记和“伪造”输入标记来进行训练,类似于 GAN 的辨别器。AraELECTRA在阿拉伯问答数据集上取得了最先进的结果。
有关详细说明,请参阅AraELECTRA论文。
from transformers import pipeline fill_mask = pipeline( "fill-mask", model="aubmindlab/araelectra-base-generator", tokenizer="aubmindlab/araelectra-base-generator" ) print( fill_mask(" عاصمة لبنان هي [MASK] .) )
建议在任何数据集上进行训练/测试之前应用我们的预处理函数。
安装arabert Python包以对文本进行分段以用于AraBERT v1和v2,或者用于清理您的数据 pip install arabert
from arabert.preprocess import ArabertPreprocessor model_name="aubmindlab/araelectra-base" arabert_prep = ArabertPreprocessor(model_name=model_name) text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري" arabert_prep.preprocess(text) >>> output: ولن نبالغ إذا قلنا : إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري
Model | HuggingFace Model Name | Size (MB/Params) |
---|---|---|
AraELECTRA-base-generator | 1235321 | 227MB/60M |
AraELECTRA-base-discriminator | 1236321 | 516MB/135M |
Model | Hardware | num of examples (seq len = 512) | Batch Size | Num of Steps | Time (in days) |
---|---|---|---|---|---|
AraELECTRA-base | TPUv3-8 | - | 256 | 2M | 24 |
新的AraELECTRA模型的预训练数据也用于AraGPT2和AraELECTRA。
该数据集包含77GB或200,095,961行或8,655,948,860个单词或82,232,988,358个字符(在应用Farasa分词之前)。
对于新的数据集,我们将经过彻底筛选的未洗牌OSCAR语料库添加到之前用于AraBERTv1的数据集中,但不包括我们先前爬取的网站:
您可以在HuggingFace的Transformer库中找到PyTorch、TF2和TF1模型,用户名为aubmindlab
@inproceedings{antoun-etal-2021-araelectra, title = "{A}ra{ELECTRA}: Pre-Training Text Discriminators for {A}rabic Language Understanding", author = "Antoun, Wissam and Baly, Fady and Hajj, Hazem", booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop", month = apr, year = "2021", address = "Kyiv, Ukraine (Virtual)", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2021.wanlp-1.20", pages = "191--195", }
感谢TensorFlow Research Cloud(TFRC)提供免费访问Cloud TPUs的机会,没有这个计划就无法完成,还要感谢 AUB MIND Lab 会员对我们的持续支持。还要感谢 Yakshof 和Assafir提供的数据和存储访问。感谢Habib Rahal( https://www.behance.net/rahalhabib )为AraBERT做出贡献。
Wissam Antoun: Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com
Fady Baly: Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com