模型:

dbmdz/bert-base-turkish-uncased

英文

? + ? dbmdz土耳其BERT模型

在这个代码库中,巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源了一个用于土耳其语的非大写模型?

?? BERTurk

BERTurk是一个由社区驱动的土耳其非大写BERT模型。

一些用于预训练和评估的数据集是由伟大的土耳其NLP社区贡献的,同时也包括模型名称的决定:BERTurk。

统计数据

当前模型的版本是基于经过过滤和句子分割的土耳其 OSCAR corpus ,最近的维基百科转储版本、各种 OPUS corpora 和由 Kemal Oflazer 提供的特殊语料库进行训练的。

最终的训练语料库的大小为35GB,有44,04,976,662个标记。

由于谷歌的TensorFlow Research Cloud(TFRC)的支持,我们可以在TPU v3-8上进行2M步的非大写模型训练。

模型权重

目前只提供与PyTorch- Transformers 兼容的权重。如果需要TensorFlow检查点的访问权限,请提出问题!

Model Downloads
dbmdz/bert-base-turkish-uncased 1235321 • 1236321 • 1237321

使用方法

使用Transformers >= 2.3,我们可以加载BERTurk非大写模型,如下所示:

from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-uncased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-uncased")

结果

有关词性标注或NER任务的结果,请参阅 this repository

Huggingface模型中心

所有模型都可以在 Huggingface model hub 中找到。

联系方式(错误、反馈、贡献等)

如果对我们的BERT模型有任何问题,请提一个问题 here ?

致谢

感谢 Kemal Oflazer 为我们提供了额外的大规模土耳其语语料库。感谢Reyyan Yeniterzi提供土耳其NER数据集进行评估。

研究得到了谷歌TensorFlow Research Cloud(TFRC)提供的Cloud TPU的支持。感谢提供TFRC的访问权限❤️

感谢 Hugging Face 团队的慷慨支持,我们可以从他们的S3存储中下载大小写模型?