模型:

dbmdz/convbert-base-turkish-cased

英文

? + ? dbmdz Turkish ConvBERT模型

在这个仓库中,巴伐利亚州图书馆的MDZ数字图书馆团队(dbmdz)开源了一个针对土耳其语的ConvBERT模型(区分大小写)?

?? ConvBERTurk

ConvBERTurk是一个由社区驱动的土耳其语ConvBERT模型(区分大小写)。

除了基于BERT和ELECTRA的模型外,我们还训练了一个ConvBERT模型。ConvBERT架构在 "ConvBERT: Improving BERT with Span-based Dynamic Convolution" 论文中进行了介绍。

我们采用了不同的训练流程:我们不是采用两阶段的方法,即使用128序列长度预训练模型的90%和512序列长度预训练模型的10%,而是在v3-32 TPU上使用512序列长度进行100万步的预训练。

统计数据

目前模型的版本是在经过过滤和句子分割的土耳其语 OSCAR corpus 维基百科最新转储,各种 OPUS corpora Kemal Oflazer 提供的特殊语料库上进行训练的。

最终的训练语料库大小为35GB,有44,04,976,662个标记。

多亏了Google的TensorFlow Research Cloud(TFRC),我们能够在TPU v3-32上训练一个区分大小写的模型!

使用方法

使用Transformers >= 4.3可以加载我们的区分大小写的ConvBERT模型,如下所示:

from transformers import AutoModel, AutoTokenizer

model_name = "dbmdz/convbert-base-turkish-cased"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

结果

关于词性标注,实体识别(NER)和问答等下游任务的结果,请参考 this repository

Huggingface模型中心

所有模型都可以在 Huggingface model hub 上获得。

联系方式(错误、反馈、贡献等)

如果对我们DBMDZ BERT模型有任何疑问,只需在 here 处提问 ?

致谢

感谢 Kemal Oflazer 提供给我们的额外大型土耳其语语料库。非常感谢Reyyan Yeniterzi提供土耳其语NER数据集供我们进行评估。

研究得到了Google的TensorFlow Research Cloud(TFRC)的云TPU支持。感谢他们提供了TFRC的访问权限 ❤️

感谢 Hugging Face 团队的慷慨支持,我们可以从他们的S3存储中下载包括区分大小写和非区分大小写的模型 ?