? + ? dbmdz BERT 模型

在这个仓库中，巴伐利亚州立图书馆的MDZ数字图书馆团队（dbmdz）开源了德文Europeana BERT模型?

德文Europeana BERT

我们使用了由The European Library提供的开源 Europeana newspapers 。最终的训练语料库大小为51GB，包含了8,035,986,369个标记。

关于数据和预训练步骤的详细信息可以在 this repository 中找到。

模型权重

目前只有兼容PyTorch- Transformers 的权重可用。如果您需要访问TensorFlow的检查点，请提出问题！

Model	Downloads
dbmdz/bert-base-german-europeana-cased	1234321 • 1235321 • 1236321

结果

关于历史命名实体识别的结果，请参考 this repository 。

用法

使用Transformers >= 2.3，我们的德文Europeana BERT模型可以这样加载：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-german-europeana-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-german-europeana-cased")

Huggingface模型中心

所有模型都可在 Huggingface model hub 上获得。

联系方式（错误、反馈、贡献等）

如有关于我们BERT模型的问题，请提出问题 here ?

致谢

本研究得到了谷歌TensorFlow Research Cloud（TFRC）提供的Cloud TPU的支持。感谢提供TFRC访问权限 ❤️

感谢 Hugging Face 团队的慷慨支持，可以从他们的S3存储中下载大小写敏感和非大小写敏感模型 ?

作者:

Bayerische Staatsbibliothek

数据集大小:

1.33 GB