? + ? dbmdz Turkish ELECTRA模型

在本库中，巴伐利亚州立图书馆的MDZ Digital Library团队（dbmdz）对土耳其的基础ELECTRA模型进行了开源?

土耳其ELECTRA模型

我们发布了一个基础的土耳其ELECTRA模型，该模型是在BERTurk使用的相同数据上进行训练的。

ELECTRA是一种用于自我监督语言表示学习的新方法。它可以使用相对较少的计算量来对转换器网络进行预训练。 ELECTRA模型的训练目的是将“真实”的输入标记与由另一个神经网络生成的“伪造”输入标记区分开来，类似于GAN的鉴别器。

有关ELECTRA的更多详细信息，请参见 ICLR paper 或 GitHub 上的 official ELECTRA repository 。

统计数据

当前版本的模型是在经过过滤和句子分割的土耳其 OSCAR corpus ，最近的维基百科转储，各种 OPUS corpora 以及由 Kemal Oflazer 提供的特殊语料库上进行训练的。

最终的训练语料库大小为35GB，有44,04,976,662个标记。

由于谷歌的TensorFlow Research Cloud（TFRC）的支持，我们可以在TPU v3-8上进行100万步的训练。

模型权重

可以获得兼容PyTorch和TensorFlow的 Transformers 权重。

Model	Downloads
dbmdz/electra-base-turkish-cased-discriminator	1237321 • 1238321 • 1239321

使用方法

使用 Transformers >= 2.8，可以加载我们的基础ELECTRA模型如下：

from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/electra-base-turkish-cased-discriminator")
model = AutoModelWithLMHead.from_pretrained("dbmdz/electra-base-turkish-cased-discriminator")

结果

有关PoS标注或NER任务的结果，请参阅 this repository 。

Huggingface 模型中心

所有模型都可在 Huggingface model hub 上获得。

联系方式（错误、反馈、贡献等）

有关我们的ELECTRA模型的问题，请提一个问题 here ?

鸣谢

感谢 Kemal Oflazer 提供额外的土耳其大语料库。非常感谢Reyyan Yeniterzi提供土耳其NER数据集用于评估。

通过谷歌的TensorFlow Research Cloud (TFRC)提供的云TPUs进行了研究支持。感谢提供对TFRC的访问权限 ❤️

感谢 Hugging Face 团队的慷慨支持，可以从他们的S3存储中下载大小写和小写模型 ?

作者:

Bayerische Staatsbibliothek

数据集大小:

844.49 MB