在这个存储库中,我发布了一个在各种土耳其语文本上训练的GPT-2模型。
该模型旨在成为在其他文本上进行微调的起点。
我使用了从oscar-corpus中获取的土耳其语语料库。
使用Huggingface的Tokenizers库,我能够创建基于训练语料库的52K个字节级BPE词汇。
创建词汇表后,我可以在完整的训练语料库上使用两个2080TI训练土耳其语的GPT-2模型(五个epochs)。
训练期间的日志: https://tensorboard.dev/experiment/3AWKv8bBTaqcqZP5frtGkw/#scalars
提供了适用于PyTorch和Tensorflow的兼容权重。
Model | Downloads |
---|---|
redrussianarmy/gpt2-turkish-cased | 1234321 • 1235321 • 1236321 • 1237321 • 1238321 • 1239321 • 12310321 • 12311321 |
可以使用以下方法使用模型:
from transformers import AutoTokenizer, AutoModelWithLMHead tokenizer = AutoTokenizer.from_pretrained("redrussianarmy/gpt2-turkish-cased") model = AutoModelWithLMHead.from_pretrained("redrussianarmy/gpt2-turkish-cased")
下面是一个示例,演示如何使用强大的Transformer Pipelines生成文本:
from transformers import pipeline pipe = pipeline('text-generation', model="redrussianarmy/gpt2-turkish-cased", tokenizer="redrussianarmy/gpt2-turkish-cased", config={'max_length':800}) text = pipe("Akşamüstü yolda ilerlerken, ")[0]["generated_text"] print(text)
git lfs install git clone https://huggingface.co/redrussianarmy/gpt2-turkish-cased
有关GPT2-Turkish模型的问题,请直接提交一个问题?