模型:

dbmdz/electra-base-turkish-cased-discriminator

英文

? + ? dbmdz Turkish ELECTRA模型

在本库中,巴伐利亚州立图书馆的MDZ Digital Library团队(dbmdz)对土耳其的基础ELECTRA模型进行了开源?

土耳其ELECTRA模型

我们发布了一个基础的土耳其ELECTRA模型,该模型是在BERTurk使用的相同数据上进行训练的。

ELECTRA是一种用于自我监督语言表示学习的新方法。它可以使用相对较少的计算量来对转换器网络进行预训练。 ELECTRA模型的训练目的是将“真实”的输入标记与由另一个神经网络生成的“伪造”输入标记区分开来,类似于GAN的鉴别器。

有关ELECTRA的更多详细信息,请参见 ICLR paper 或 GitHub 上的 official ELECTRA repository

统计数据

当前版本的模型是在经过过滤和句子分割的土耳其 OSCAR corpus ,最近的维基百科转储,各种 OPUS corpora 以及由 Kemal Oflazer 提供的特殊语料库上进行训练的。

最终的训练语料库大小为35GB,有44,04,976,662个标记。

由于谷歌的TensorFlow Research Cloud(TFRC)的支持,我们可以在TPU v3-8上进行100万步的训练。

模型权重

可以获得兼容PyTorch和TensorFlow的 Transformers 权重。

Model Downloads
dbmdz/electra-base-turkish-cased-discriminator 1237321 • 1238321 • 1239321

使用方法

使用 Transformers >= 2.8,可以加载我们的基础ELECTRA模型如下:

from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("dbmdz/electra-base-turkish-cased-discriminator")
model = AutoModelWithLMHead.from_pretrained("dbmdz/electra-base-turkish-cased-discriminator")

结果

有关PoS标注或NER任务的结果,请参阅 this repository

Huggingface 模型中心

所有模型都可在 Huggingface model hub 上获得。

联系方式(错误、反馈、贡献等)

有关我们的ELECTRA模型的问题,请提一个问题 here ?

鸣谢

感谢 Kemal Oflazer 提供额外的土耳其大语料库。非常感谢Reyyan Yeniterzi提供土耳其NER数据集用于评估。

通过谷歌的TensorFlow Research Cloud (TFRC)提供的云TPUs进行了研究支持。感谢提供对TFRC的访问权限 ❤️

感谢 Hugging Face 团队的慷慨支持,可以从他们的S3存储中下载大小写和小写模型 ?