模型:
dbmdz/electra-base-turkish-cased-discriminator
在本库中,巴伐利亚州立图书馆的MDZ Digital Library团队(dbmdz)对土耳其的基础ELECTRA模型进行了开源?
我们发布了一个基础的土耳其ELECTRA模型,该模型是在BERTurk使用的相同数据上进行训练的。
ELECTRA是一种用于自我监督语言表示学习的新方法。它可以使用相对较少的计算量来对转换器网络进行预训练。 ELECTRA模型的训练目的是将“真实”的输入标记与由另一个神经网络生成的“伪造”输入标记区分开来,类似于GAN的鉴别器。
有关ELECTRA的更多详细信息,请参见 ICLR paper 或 GitHub 上的 official ELECTRA repository 。
当前版本的模型是在经过过滤和句子分割的土耳其 OSCAR corpus ,最近的维基百科转储,各种 OPUS corpora 以及由 Kemal Oflazer 提供的特殊语料库上进行训练的。
最终的训练语料库大小为35GB,有44,04,976,662个标记。
由于谷歌的TensorFlow Research Cloud(TFRC)的支持,我们可以在TPU v3-8上进行100万步的训练。
可以获得兼容PyTorch和TensorFlow的 Transformers 权重。
Model | Downloads |
---|---|
dbmdz/electra-base-turkish-cased-discriminator | 1237321 • 1238321 • 1239321 |
使用 Transformers >= 2.8,可以加载我们的基础ELECTRA模型如下:
from transformers import AutoModelWithLMHead, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("dbmdz/electra-base-turkish-cased-discriminator") model = AutoModelWithLMHead.from_pretrained("dbmdz/electra-base-turkish-cased-discriminator")
有关PoS标注或NER任务的结果,请参阅 this repository 。
所有模型都可在 Huggingface model hub 上获得。
有关我们的ELECTRA模型的问题,请提一个问题 here ?
感谢 Kemal Oflazer 提供额外的土耳其大语料库。非常感谢Reyyan Yeniterzi提供土耳其NER数据集用于评估。
通过谷歌的TensorFlow Research Cloud (TFRC)提供的云TPUs进行了研究支持。感谢提供对TFRC的访问权限 ❤️
感谢 Hugging Face 团队的慷慨支持,可以从他们的S3存储中下载大小写和小写模型 ?