? + ? dbmdz Turkish BERT模型

在这个库中，巴伐利亚州立图书馆的MDZ Digital Library团队（dbmdz）开源了一种针对土耳其语的cased模型 ?

?? BERTurk

BERTurk是一个由社区驱动的针对土耳其语的cased BERT模型。

预训练和评估使用的一些数据集来自令人敬畏的土耳其自然语言处理社区的贡献，也决定了模型的名称：BERTurk。

统计数据

当前版本的模型是在对土耳其 OSCAR corpus 的过滤和句子分割版本，最近的维基百科转储中的各种 OPUS corpora ，以及 Kemal Oflazer 提供的特殊语料库上进行训练的。

最终的训练语料库的大小为35GB，有44,04,976,662个标记。

多亏了Google的TensorFlow Research Cloud（TFRC），我们可以在TPU v3-8上进行200万步的cased模型训练。

模型权重

目前只提供与PyTorch- Transformers 兼容的权重。如果您需要访问TensorFlow检查点，请提出一个问题！

Model	Downloads
dbmdz/bert-base-turkish-cased	1235321 • 1236321 • 1237321

用法

使用Transformers > = 2.3，我们的BERTurk cased模型可以加载如下：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-cased")

结果

有关PoS标记或NER任务的结果，请参阅 this repository

Huggingface模型中心

所有模型都可以在 Huggingface model hub 上获得。

联系方式（错误，反馈，贡献等）

如果对我们的BERT模型有任何疑问，请打开一个问题 here ?

致谢

感谢 Kemal Oflazer 提供了额外的大型土耳其语语料库。再次感谢Reyyan Yeniterzi提供土耳其语NER数据集用于评估。

研究得到了来自Google TensorFlow研究云（TFRC）的Cloud TPU支持。感谢提供对TFRC的访问 ❤️

感谢 Hugging Face 团队的慷慨支持，可以从他们的S3存储中下载cased和uncased模型 ?

作者:

Bayerische Staatsbibliothek

数据集大小:

1.33 GB