? + ? dbmdz BERT模型

在这个仓库中，巴伐利亚州立图书馆的MDZ数字图书馆团队（dbmdz）发布了法语Europeana BERT模型?

法语Europeana BERT

我们使用Europeana语料库的语言元数据属性提取了所有的法语文本。

得到的语料库大小为63GB，由11,052,528,456个标记组成。

根据元数据信息，训练集主要包括18世纪到20世纪的文本。

关于数据和预训练步骤的详细信息可以在 this repository 中找到。

模型权重

提供了PyTorch和TensorFlow的BERT模型权重。

法语Europeana BERT：dbmdz/bert-base-french-europeana-cased - model hub page

结果

有关历史命名实体识别的结果，请参阅 this repository 。

用法

使用Transformers >= 2.3可以加载我们的法语Europeana BERT模型，如下所示：

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-french-europeana-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-french-europeana-cased")

Huggingface模型中心

所有模型都可在 Huggingface model hub 上获得。

联系方式（错误、反馈、贡献等）

如有关于我们BERT模型的问题，请提出问题 here ?

致谢

研究得到了谷歌TensorFlow研究云（TFRC）提供的云TPU支持。感谢提供对TFRC的访问❤️

感谢 Hugging Face 团队的慷慨支持，使我们可以从他们的S3存储中下载我们的模型?

作者:

Bayerische Staatsbibliothek

数据集大小:

1.33 GB