英文

?? GPT-2土耳其语模型

在这个存储库中,我发布了一个在各种土耳其语文本上训练的GPT-2模型。

该模型旨在成为在其他文本上进行微调的起点。

训练语料库

我使用了从oscar-corpus中获取的土耳其语语料库。

使用Huggingface的Tokenizers库,我能够创建基于训练语料库的52K个字节级BPE词汇。

创建词汇表后,我可以在完整的训练语料库上使用两个2080TI训练土耳其语的GPT-2模型(五个epochs)。

训练期间的日志: https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars

模型权重

提供了适用于PyTorch和Tensorflow的兼容权重。

Model Downloads
redrussianarmy/gpt2-turkish-cased 1234321 • 1235321 • 1236321 • 1237321 • 1238321 • 1239321 • 12310321 • 12311321

使用该模型

可以使用以下方法使用模型:

from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased")
model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")

下面是一个示例,演示如何使用强大的Transformer Pipelines生成文本:

from transformers import pipeline
pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased",
                 tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800})   
text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"]
print(text)

如何克隆模型仓库?

git lfs install
git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased

联系(错误、反馈、贡献等等)

有关GPT2-Turkish模型的问题,请直接提交一个问题?