🇹🇷 GPT-2土耳其语模型

在这个存储库中，我发布了一个在各种土耳其语文本上训练的GPT-2模型。

该模型旨在成为在其他文本上进行微调的起点。

训练语料库

我使用了从oscar-corpus中获取的土耳其语语料库。

使用Huggingface的Tokenizers库，我能够创建基于训练语料库的52K个字节级BPE词汇。

创建词汇表后，我可以在完整的训练语料库上使用两个2080TI训练土耳其语的GPT-2模型（五个epochs）。

训练期间的日志： https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars

模型权重

提供了适用于PyTorch和Tensorflow的兼容权重。

Model	Downloads
redrussianarmy/gpt2-turkish-cased	1234321 • 1235321 • 1236321 • 1237321 • 1238321 • 1239321 • 12310321 • 12311321

使用该模型

可以使用以下方法使用模型：

from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")

下面是一个示例，演示如何使用强大的Transformer Pipelines生成文本：

from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
                 tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})   
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)

如何克隆模型仓库？

git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased

联系（错误、反馈、贡献等等）

有关GPT2-Turkish模型的问题，请直接提交一个问题🤗

作者:

Hakan Boğan

数据集大小:

1.4 GB