英文

版权:知识共享署名4.0国际许可协议

Palmyra小型模型 128M

| | |

模型描述

Palmyra Small主要是通过英文文本进行预训练。请注意,在训练语料库中仍存在少量非英文数据,这些数据来源于CommonCrawl。在模型的预训练过程中,使用了因果语言建模(CLM)目标。与GPT-3类似,Palmyra Small是相同系列的模型之一,只包含一个解码器。因此,它通过自监督因果语言建模的目标进行了预训练。Palmyra Small使用了GPT-3的提示和通用实验设置,以便根据GPT-3进行评估。

使用案例

Palmyra Small是Writer语言模型中速度最快的,并且可以执行重要任务,如文本解析、简单分类、地址校正和关键词识别。提供更多上下文可以获得更好的性能。

训练数据

Palmyra Small(128M)是在Writer的自定义数据集上进行训练的。

预期用途和限制

Palmyra Small学习了英语语言的内部表示,可以用于提取对下游任务有用的特征。然而,该模型最擅长的是按照提示生成文本。

如何使用

使用AutoModelForCausalLM功能可轻松加载此模型:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("Writer/palmyra-small")

tokenizer = AutoTokenizer.from_pretrained("Writer/palmyra-small")

限制和偏见

Palmyra Small的核心功能是接收一串文本并预测下一个标记。虽然语言模型被广泛用于其他任务,但在这项工作中还存在许多未知因素。在提示Palmyra时,请记住,下一个统计上可能的标记并不总是能产生最“准确”的文本的标记。切勿依赖Palmyra Small生成事实上的正确结果。

Palmyra Small是在Writer的自定义数据上进行了训练。与所有语言模型一样,很难预测Palmyra Small对特定提示的响应,可能会意外出现冒犯性内容。我们建议在发布之前,由人员对输出结果进行筛选或过滤,以过滤掉不良内容并提高结果的质量。

引用和相关信息

引用此模型:

@misc{Palmyra,
  author = {Writer Engineering Team},
  title = {{Palmyra-base Parameter Autoregressive Language Model}},
  howpublished = {\url{https://dev.writer.com}},
  year = 2023,
  month = January 
}
.hf-sanitized.hf-sanitized-O5hK-wGFoMgixjxHjnfWL img {display: inline;}