模型:

dbmdz/convbert-base-german-europeana-cased

英文

? + ? dbmdz ConvBERT模型

在这个仓库中,巴伐利亚州立图书馆的MDZ Digital Library团队(dbmdz)开源了一种德语Europeana ConvBERT模型 ?

德语Europeana ConvBERT

我们使用了由The European Library提供的开源 Europeana newspapers 。最终的训练语料库大小为51GB,包含了8,035,986,369个标记。

关于数据和预训练步骤的详细信息可以在 this repository 中找到。

结果

有关历史命名实体识别的结果,请参阅 this repository

使用

使用Transformers >= 4.3,可以加载我们的德语Europeana ConvBERT模型如下:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/convbert-base-german-europeana-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

Huggingface模型中心

所有其他德语Europeana模型都可以在 Huggingface model hub 上找到。

联系方式(错误、反馈、贡献等)

如有关于我们的Europeana BERT、ELECTRA和ConvBERT模型的问题,请在 here 中开启新的讨论 ?

致谢

研究得到了来自Google's TensorFlow Research Cloud (TFRC)的Cloud TPUs的支持。感谢他们提供访问TFRC的机会 ❤️

感谢 Hugging Face 团队的大力支持,我们可以从他们的S3存储中下载大小写敏感和大小写不敏感的模型 ?