模型:

google/electra-large-generator

英文

ELECTRA: 以判别器而非生成器的方式进行预训练文本编码器

ELECTRA是一种用于自监督语言表示学习的新方法。它可以使用相对较少的计算量来对Transformer网络进行预训练。ELECTRA模型被训练成区分“真实”输入标记和由另一个神经网络生成的“虚假”输入标记,类似于 GAN 的鉴别器。即使在小规模下,ELECTRA在单个GPU上训练时也能取得较好的结果。而在大规模下,ELECTRA在 SQuAD 2.0 数据集上取得了最先进的结果。

详细的描述和实验结果请参阅我们的论文 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

这个代码库包含了预训练ELECTRA的代码,包括在单个GPU上的小型ELECTRA模型的代码。它还支持在下游任务中对ELECTRA进行微调,包括分类任务(例如 GLUE )、问答任务(例如 SQuAD )和序列标注任务(例如 text chunking )。

如何在transformers中使用生成器

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="google/electra-large-generator",
    tokenizer="google/electra-large-generator"
)

print(
    fill_mask(f"HuggingFace is creating a {nlp.tokenizer.mask_token} that the community uses to solve NLP tasks.")
)