模型:
Writer/palmyra-base
| | |
Palmyra Base主要在英文文本上进行了预训练。请注意,在训练语料库中仍然存在少量非英文数据,这些数据是通过CommonCrawl获取的。在模型的预训练过程中,使用了因果语言建模(CLM)目标。与GPT-3类似,Palmyra Base是同一系列只包含解码器的模型成员。因此,它通过自监督因果语言建模的目标进行了预训练。Palmyra Base使用了GPT-3的提示和一般实验设置,以便根据GPT-3进行评估。
Palmyra Base在速度非常快的同时也非常强大。该模型在诸如情感分类和摘要等许多微妙的任务中表现出色。
Palmyra Base(5b)是使用Writer的自定义数据集进行训练的。
Palmyra Base学习了英语语言的内部表示,可以用于提取对下游任务有用的特征。然而,该模型在其预训练任务中表现最佳,即从提示生成文本。
可以使用AutoModelForCausalLM功能轻松加载此模型:
from transformers import AutoModelForCausalLM, AutoTokenizer import torch model = AutoModelForCausalLM.from_pretrained("Writer/palmyra-base", torch_dtype=torch.float16).cuda() # the fast tokenizer currently does not work correctly tokenizer = AutoTokenizer.from_pretrained("Writer/palmyra-base", use_fast=False)
Palmyra Base的核心功能是接收一串文本并预测下一个标记。虽然语言模型广泛用于其他任务,但这项工作仍存在许多未知因素。在提示Palmyra Base时,请记住,下一个在统计上最可能的标记并不总是产生最“准确”文本的标记。永远不要依赖Palmyra Base生成准确的结果。
Palmyra Base是使用Writer的自定义数据进行训练的。与所有语言模型一样,很难预测Palmyra Base对特定提示的响应,并且可能会意外出现冒犯性内容。我们建议在发布之前通过人工筛选或过滤输出内容,既可以审查不良内容,也可以提高结果质量。
对SuperGLUE基准测试上的Palmyra Base模型进行评估
Task | Metric | Value |
---|---|---|
boolq | acc | 64.43 |
cb | acc | 10.71 |
f1 | 08.32 | |
copa | acc | 76.00 |
multirc | acc | 01.26 |
record | f1 | 84.02 |
em | 83.29 | |
wic | acc | 50.00 |
wsc | acc | 36.54 |
要引用此模型:
@misc{Palmyra, author = {Writer Engineering team}, title = {{Palmyra-base Parameter Autoregressive Language Model}}, howpublished = {\url{https://dev.writer.com}}, year = 2023, month = January }.hf-sanitized.hf-sanitized-Vmgph8TKj6HzuTbh9f6_P img {display: inline;}