英文

AraELECTRA

ELECTRA 是一种用于自监督语言表示学习的方法。可以使用相对较少的计算资源来预训练Transformer网络。ELECTRA模型通过区分由另一个神经网络生成的“真实”输入标记和“伪造”输入标记来进行训练,类似于 GAN 的辨别器。AraELECTRA在阿拉伯问答数据集上取得了最先进的结果。

有关详细说明,请参阅AraELECTRA论文。

在transformers中使用生成器的方法

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="aubmindlab/araelectra-base-generator",
    tokenizer="aubmindlab/araelectra-base-generator"
)

print(
    fill_mask(" عاصمة لبنان هي [MASK] .)
)

预处理

建议在任何数据集上进行训练/测试之前应用我们的预处理函数。

安装arabert Python包以对文本进行分段以用于AraBERT v1和v2,或者用于清理您的数据 pip install arabert

from arabert.preprocess import ArabertPreprocessor

model_name="aubmindlab/araelectra-base"
arabert_prep = ArabertPreprocessor(model_name=model_name)

text = "ولن نبالغ إذا قلنا إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري"
arabert_prep.preprocess(text)

>>> output: ولن نبالغ إذا قلنا : إن هاتف أو كمبيوتر المكتب في زمننا هذا ضروري

模型

Model HuggingFace Model Name Size (MB/Params)
AraELECTRA-base-generator 1235321 227MB/60M
AraELECTRA-base-discriminator 1236321 516MB/135M

计算

Model Hardware num of examples (seq len = 512) Batch Size Num of Steps Time (in days)
AraELECTRA-base TPUv3-8 - 256 2M 24

数据集

新的AraELECTRA模型的预训练数据也用于AraGPT2和AraELECTRA。

该数据集包含77GB或200,095,961行或8,655,948,860个单词或82,232,988,358个字符(在应用Farasa分词之前)。

对于新的数据集,我们将经过彻底筛选的未洗牌OSCAR语料库添加到之前用于AraBERTv1的数据集中,但不包括我们先前爬取的网站:

TensorFlow 1.x模型

您可以在HuggingFace的Transformer库中找到PyTorch、TF2和TF1模型,用户名为aubmindlab

  • wget https://huggingface.co/aubmindlab/MODEL_NAME/resolve/main/tf1_model.tar.gz 其中MODEL_NAME是aubmindlab下的任何模型

如果您使用了此模型,请引用我们:

@inproceedings{antoun-etal-2021-araelectra,
    title = "{A}ra{ELECTRA}: Pre-Training Text Discriminators for {A}rabic Language Understanding",
    author = "Antoun, Wissam  and
      Baly, Fady  and
      Hajj, Hazem",
    booktitle = "Proceedings of the Sixth Arabic Natural Language Processing Workshop",
    month = apr,
    year = "2021",
    address = "Kyiv, Ukraine (Virtual)",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.wanlp-1.20",
    pages = "191--195",
}

致谢

感谢TensorFlow Research Cloud(TFRC)提供免费访问Cloud TPUs的机会,没有这个计划就无法完成,还要感谢 AUB MIND Lab 会员对我们的持续支持。还要感谢 Yakshof 和Assafir提供的数据和存储访问。感谢Habib Rahal( https://www.behance.net/rahalhabib )为AraBERT做出贡献。

联系方式

Wissam Antoun: Linkedin | Twitter | Github | wfa07@mail.aub.edu | wissam.antoun@gmail.com

Fady Baly: Linkedin | Twitter | Github | fgb06@mail.aub.edu | baly.fady@gmail.com