孟加拉GPT-2

孟加拉GPT-2演示。是 Huggingface JAX/Flax event 的一部分。还包括孟加拉歌词的 finetuned 模型。

模型描述

OpenAI GPT-2模型是在 Language Models are Unsupervised Multitask Learners 论文中提出的。原始的GPT2模型是一个因果（单向）变压器，使用语言模型在一个非常大的40 GB文本数据语料库上进行预训练。该模型具有相同的配置，但是已经在孟加拉的mC4（多语言C4）数据集上进行了预训练。用于训练模型的代码全部开源 here 。

训练细节

总体结果：

评估损失：1.45，评估困惑度：3.141

数据： mC4-bn

训练步骤：250k 步

链接 ? flax-community/gpt2-bengali

演示： https://huggingface.co/spaces/flax-community/Gpt2-bengali

使用方法

有多种可用的使用模型的选项。例如，直接使用pipeline我们可以尝试生成句子。

from transformers import pipeline

gpt2_bengali = pipeline('text-generation',model="flax-community/gpt2-bengali", tokenizer='flax-community/gpt2-bengali')

同样，对于在孟加拉歌曲上使用fine-tuned模型，我们可以使用以下方法。

from transformers import pipeline

singer = pipeline('text-generation',model="khalidsaifullaah/bengali-lyricist-gpt2", tokenizer='khalidsaifullaah/bengali-lyricist-gpt2')

要在其他任务上使用模型，需要在自定义数据集上进行fine-tune。详细信息可以在huggingface的 documentation 找到。

贡献者

Khalid Saifullah
Tasmiah Tahsin Mayeesha
Ritobrata Ghosh
Ibrahim Musa
M Saiful Bari

BibTeX条目和引文信息

即将推出！

作者:

Flax Community

数据集大小:

1000.38 MB