? + ? dbmdz BERT和ELECTRA模型

在这个库中，巴伐利亚州立图书馆的MDZ Digital Library团队(dbmdz)开源了意大利语BERT和ELECTRA模型 ?

意大利语BERT

意大利语BERT模型的源数据来自最近的维基百科转储和 OPUS corpora 收集的各种文本。最终的训练语料库大小为13GB和2,050,057,573个标记。

为了进行句子拆分，我们使用NLTK（相对于spacy更快）。我们的大小写模型使用512个子词的初始序列长度进行训练，训练步骤约为2-3M次。

对于XXL意大利模型，我们使用来自OPUS的相同训练数据，并将其扩展为 OSCAR corpus 的意大利部分的数据。因此，最终的训练语料库大小为81GB和13,138,379,147个标记。

注意：不幸的是，在训练XXL模型时，使用了错误的词汇表大小。这解释了“真实”词汇表大小为31102，与config.json中指定的词汇表大小不匹配。但是，模型可以正常工作，并且所有评估都是在这种情况下进行的。请参阅 this issue 获取更多信息。

意大利语ELECTRA模型在总共训练了1M步的“XXL”语料库上使用批大小为128进行训练。我们基本上按照 BERTurk 使用的ELECTRA训练流程进行训练。

模型权重

目前只有符合PyTorch- Transformers 的权重可用。如果您需要TensorFlow的检查点，请提出一个问题！

Model	Downloads
dbmdz/bert-base-italian-cased	1238321 • 1239321 • 12310321
dbmdz/bert-base-italian-uncased	12311321 • 12312321 • 12313321
dbmdz/bert-base-italian-xxl-cased	12314321 • 12315321 • 12316321
dbmdz/bert-base-italian-xxl-uncased	12317321 • 12318321 • 12319321
dbmdz/electra-base-italian-xxl-cased-discriminator	12320321 • 12321321 • 12322321
dbmdz/electra-base-italian-xxl-cased-generator	12323321 • 12324321 • 12325321

结果

关于ner或pos标记等下游任务的结果，请参考 this repository 。

用法

使用Transformers >= 2.3，我们可以加载意大利语BERT模型如下：

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/bert-base-italian-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModel.from_pretrained(model_name)

要加载（推荐的）意大利语XXL BERT模型，只需使用：

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/bert-base-italian-xxl-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModel.from_pretrained(model_name)

要加载意大利语XXL ELECTRA模型（判别器），只需使用：

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/electra-base-italian-xxl-cased-discriminator"

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelWithLMHead.from_pretrained(model_name)

Huggingface模型库

所有模型都可以在 Huggingface model hub 上获得。

联系方式（错误、反馈、贡献等）

如果对我们的BERT/ELECTRA模型有任何问题，请提一个问题 here ?

致谢

研究得到了Google TensorFlow研究云（TFRC）的云TPU的支持。感谢提供TFRC的访问权 ❤️

感谢 Hugging Face 团队的慷慨支持，可以从他们的S3存储中下载大小写模型 ?

作者:

Bayerische Staatsbibliothek

数据集大小:

419.66 MB