英文

GPT2-Persian

bolbolzaban/gpt2-persian是使用与标准gpt2-medium相似的超参数训练的gpt2语言模型,但具有以下区别:

  • 上下文大小从1024减小到256个子词,以降低训练成本
  • 使用Google句子拼接分词器而不是BPE进行标记化
  • 训练数据集只包括波斯文本。所有非波斯字符都被替换为特殊标记(如[LAT],[URL],[NUM])
  • 请参考此链接以获取更多详细信息。同时也可以尝试模型 here Bolbolzaban.com

    如何使用

    您可以直接使用此模型进行文本生成。

    from transformers import pipeline, AutoTokenizer, GPT2LMHeadModel
    tokenizer = AutoTokenizer.from_pretrained('bolbolzaban/gpt2-persian')
    model = GPT2LMHeadModel.from_pretrained('bolbolzaban/gpt2-persian')
    generator = pipeline('text-generation', model, tokenizer=tokenizer, config={'max_length':256})
    sample = generator('در یک اتفاق شگفت انگیز، پژوهشگران')
    

    如果您使用TensorFlow,请导入TFGPT2LMHeadModel而不是GPT2LMHeadModel。

    微调

    在此链接中找到有关基本微调示例。

    特殊标记

    gpt-persian用于波斯诗歌的研究目的。因此,所有英文单词和数字都被特殊标记替换,只使用标准波斯字母作为输入文本的一部分。以下是一个示例:

    原始文本:اگر آیفون یا آیپد شما دارای سیستم عامل iOS 14.3 یا iPadOS 14.3 یا نسخه‌های جدیدتر باشد

    训练时使用的文本:اگر آیفون یا آیپد شما دارای سیستم عامل [LAT] [NUM] یا [LAT] [NUM] یا نسخه‌های جدیدتر باشد

    请考虑使用 Hazm 或类似的库对输入文本进行归一化,并确保只提供波斯字符作为输入。

    如果您想使用古典波斯诗歌作为输入,在每个诗句(مصرع)的开头使用[BOM](开头)标记,然后在每个联(بیت)的末尾使用[EOS](语句结束)标记。

    以下链接提供了示例:

    [BOM] توانا بود

    [BOM] توانا بود هر که دانا بود [BOM]

    [BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیر

    [BOM] توانا بود هر که دانا بود [BOM] ز دانش دل پیربرنا بود [EOS]

    如果您想了解古典波斯诗歌的结构,请参考这些链接。

    致谢

    这个项目受到来自Google TensorFlow研究云(TFRC)的Cloud TPU支持。

    引用和参考

    如果您在研究或商业应用中使用gpt2-persian,请引用"bolbolzaban.com"网站。

    联系方式

    如果您有任何问题或需要任何帮助使用该模型,请通过 Linkedin Telegram 与我们联系。

    Twitter Telegram Instagram 上关注 Bolbolzaban