英文

Palmyra Base 5B

| | |

模型描述

Palmyra Base主要在英文文本上进行了预训练。请注意,在训练语料库中仍然存在少量非英文数据,这些数据是通过CommonCrawl获取的。在模型的预训练过程中,使用了因果语言建模(CLM)目标。与GPT-3类似,Palmyra Base是同一系列只包含解码器的模型成员。因此,它通过自监督因果语言建模的目标进行了预训练。Palmyra Base使用了GPT-3的提示和一般实验设置,以便根据GPT-3进行评估。

使用案例

Palmyra Base在速度非常快的同时也非常强大。该模型在诸如情感分类和摘要等许多微妙的任务中表现出色。

训练数据

Palmyra Base(5b)是使用Writer的自定义数据集进行训练的。

预期用途和限制

Palmyra Base学习了英语语言的内部表示,可以用于提取对下游任务有用的特征。然而,该模型在其预训练任务中表现最佳,即从提示生成文本。

如何使用

可以使用AutoModelForCausalLM功能轻松加载此模型:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained("Writer/palmyra-base", torch_dtype=torch.float16).cuda()

# the fast tokenizer currently does not work correctly
tokenizer = AutoTokenizer.from_pretrained("Writer/palmyra-base", use_fast=False)

局限性和偏见

Palmyra Base的核心功能是接收一串文本并预测下一个标记。虽然语言模型广泛用于其他任务,但这项工作仍存在许多未知因素。在提示Palmyra Base时,请记住,下一个在统计上最可能的标记并不总是产生最“准确”文本的标记。永远不要依赖Palmyra Base生成准确的结果。

Palmyra Base是使用Writer的自定义数据进行训练的。与所有语言模型一样,很难预测Palmyra Base对特定提示的响应,并且可能会意外出现冒犯性内容。我们建议在发布之前通过人工筛选或过滤输出内容,既可以审查不良内容,也可以提高结果质量。

评估结果

对SuperGLUE基准测试上的Palmyra Base模型进行评估

Task Metric Value
boolq acc 64.43
cb acc 10.71
f1 08.32
copa acc 76.00
multirc acc 01.26
record f1 84.02
em 83.29
wic acc 50.00
wsc acc 36.54

引用和相关信息

要引用此模型:

@misc{Palmyra,
  author = {Writer Engineering team},
  title = {{Palmyra-base Parameter Autoregressive Language Model}},
  howpublished = {\url{https://dev.writer.com}},
  year = 2023,
  month = January 
}
.hf-sanitized.hf-sanitized-Vmgph8TKj6HzuTbh9f6_P img {display: inline;}