模型:

bolbolzaban/gpt2-persian

任务:

文本生成

类库:

PyTorch TensorFlow JAX Transformers

语言:

其他:

gpt2 farsi persian text-generation-inference

许可:

apache-2.0

模型介绍文件清单

英文

GPT2-Persian

bolbolzaban/gpt2-persian是使用与标准gpt2-medium相似的超参数训练的gpt2语言模型，但具有以下区别：

上下文大小从1024减小到256个子词，以降低训练成本

使用Google句子拼接分词器而不是BPE进行标记化

训练数据集只包括波斯文本。所有非波斯字符都被替换为特殊标记（如[LAT]，[URL]，[NUM]）

请参考此链接以获取更多详细信息。同时也可以尝试模型 here 或 Bolbolzaban.com 。

如何使用

您可以直接使用此模型进行文本生成。

from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
tokenizer = AutoTokenizer.from_pretrained('bolbolzaban/gpt2-persian')
model = GPT2LMHeadModel.from_pretrained('bolbolzaban/gpt2-persian')
generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':256})
sample = generator('در یک اتفاق شگفت انگیز، پژوهشگران')

如果您使用TensorFlow，请导入TFGPT2LMHeadModel而不是GPT2LMHeadModel。

微调

在此链接中找到有关基本微调示例。

特殊标记

gpt-persian用于波斯诗歌的研究目的。因此，所有英文单词和数字都被特殊标记替换，只使用标准波斯字母作为输入文本的一部分。以下是一个示例：

原始文本：اگر آیفون یا آیپد شما دارای سیستم عامل iOS 14.3 یا iPadOS 14.3 یا نسخه‌های جدیدتر باشد

训练时使用的文本：اگر آیفون یا آیپد شما دارای سیستم عامل [LAT] [NUM] یا [LAT] [NUM] یا نسخه‌های جدیدتر باشد

请考虑使用 Hazm 或类似的库对输入文本进行归一化，并确保只提供波斯字符作为输入。

如果您想使用古典波斯诗歌作为输入，在每个诗句（مصرع）的开头使用[BOM]（开头）标记，然后在每个联（بیت）的末尾使用[EOS]（语句结束）标记。

以下链接提供了示例：

[BOM] توانا بود

[BOM] توانا بود هر که دانا بود [BOM]

[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیر

[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیربرنا بود [EOS]

如果您想了解古典波斯诗歌的结构，请参考这些链接。

致谢

这个项目受到来自Google TensorFlow研究云（TFRC）的Cloud TPU支持。

引用和参考

如果您在研究或商业应用中使用gpt2-persian，请引用"bolbolzaban.com"网站。

联系方式

如果您有任何问题或需要任何帮助使用该模型，请通过 Linkedin 或 Telegram 与我们联系。

在 Twitter 、 Telegram 或 Instagram 上关注 Bolbolzaban 。

作者:

bolbolzaban

数据集大小:

3.67 GB