模型:
bolbolzaban/gpt2-persian
bolbolzaban/gpt2-persian是使用与标准gpt2-medium相似的超参数训练的gpt2语言模型,但具有以下区别:
请参考此链接以获取更多详细信息。同时也可以尝试模型 here 或 Bolbolzaban.com 。
您可以直接使用此模型进行文本生成。
from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel tokenizer = AutoTokenizer.from_pretrained('bolbolzaban/gpt2-persian') model = GPT2LMHeadModel.from_pretrained('bolbolzaban/gpt2-persian') generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':256}) sample = generator('در یک اتفاق شگفت انگیز، پژوهشگران')
如果您使用TensorFlow,请导入TFGPT2LMHeadModel而不是GPT2LMHeadModel。
在此链接中找到有关基本微调示例。
gpt-persian用于波斯诗歌的研究目的。因此,所有英文单词和数字都被特殊标记替换,只使用标准波斯字母作为输入文本的一部分。以下是一个示例:
原始文本:اگر آیفون یا آیپد شما دارای سیستم عامل iOS 14.3 یا iPadOS 14.3 یا نسخههای جدیدتر باشد
训练时使用的文本:اگر آیفون یا آیپد شما دارای سیستم عامل [LAT] [NUM] یا [LAT] [NUM] یا نسخههای جدیدتر باشد
请考虑使用 Hazm 或类似的库对输入文本进行归一化,并确保只提供波斯字符作为输入。
如果您想使用古典波斯诗歌作为输入,在每个诗句(مصرع)的开头使用[BOM](开头)标记,然后在每个联(بیت)的末尾使用[EOS](语句结束)标记。
以下链接提供了示例:
[BOM] توانا بود هر که دانا بود [BOM]
[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیر
[BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیربرنا بود [EOS]
如果您想了解古典波斯诗歌的结构,请参考这些链接。
这个项目受到来自Google TensorFlow研究云(TFRC)的Cloud TPU支持。
如果您在研究或商业应用中使用gpt2-persian,请引用"bolbolzaban.com"网站。
如果您有任何问题或需要任何帮助使用该模型,请通过 Linkedin 或 Telegram 与我们联系。
在 Twitter 、 Telegram 或 Instagram 上关注 Bolbolzaban 。