? + ? dbmdz土耳其BERT模型

在这个代码库中，巴伐利亚州立图书馆的MDZ数字图书馆团队（dbmdz）开源了一个用于土耳其语的非大写模型?

?? BERTurk

BERTurk是一个由社区驱动的土耳其非大写BERT模型。

一些用于预训练和评估的数据集是由伟大的土耳其NLP社区贡献的，同时也包括模型名称的决定：BERTurk。

统计数据

当前模型的版本是基于经过过滤和句子分割的土耳其 OSCAR corpus ，最近的维基百科转储版本、各种 OPUS corpora 和由 Kemal Oflazer 提供的特殊语料库进行训练的。

最终的训练语料库的大小为35GB，有44,04,976,662个标记。

由于谷歌的TensorFlow Research Cloud（TFRC）的支持，我们可以在TPU v3-8上进行2M步的非大写模型训练。

模型权重

目前只提供与PyTorch- Transformers 兼容的权重。如果需要TensorFlow检查点的访问权限，请提出问题！

Model	Downloads
dbmdz/bert-base-turkish-uncased	1235321 • 1236321 • 1237321

使用方法

使用Transformers >= 2.3，我们可以加载BERTurk非大写模型，如下所示：

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-uncased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-uncased")

结果

有关词性标注或NER任务的结果，请参阅 this repository 。

Huggingface模型中心

所有模型都可以在 Huggingface model hub 中找到。

联系方式（错误、反馈、贡献等）

如果对我们的BERT模型有任何问题，请提一个问题 here ?

致谢

感谢 Kemal Oflazer 为我们提供了额外的大规模土耳其语语料库。感谢Reyyan Yeniterzi提供土耳其NER数据集进行评估。

研究得到了谷歌TensorFlow Research Cloud（TFRC）提供的Cloud TPU的支持。感谢提供TFRC的访问权限❤️

感谢 Hugging Face 团队的慷慨支持，我们可以从他们的S3存储中下载大小写模型?

作者:

Bayerische Staatsbibliothek

数据集大小:

1.33 GB