英文

Levanter-Backpack-1.4B模型卡片

这是一个具有强大建模性能和解释性和控制性接口的1.4B参数版本的 Backpack architecture 模型。

训练细节

训练数据

该模型是在 OpenWebText 语料库上进行训练的。

训练过程

该模型进行了450k个梯度步骤的训练,并使用余弦衰减学习率从1e-4衰减到零,其中线性预热了5k个步骤。

环境影响

  • 硬件类型:v3-128 TPU(128个核心,2TB内存)
  • 使用时间:大约8.6天
  • 云服务提供商:Google Cloud Patform
  • 计算区域:北美

模型架构和目标

该模型是通过最小化交叉熵损失进行训练的,是一个 Backpack language model

软件

该模型是使用 Levanter Jax 进行训练的。

损失曲线

如何开始使用该模型

请安装 transformers、safetensors和torch来使用该模型。

pip install transformers safetensors torch

运行以下Python代码:

import torch
import transformers
from transformers import AutoModelForCausalLM


model_id = "stanford-crfm/levanter-backpack-1b"
config = transformers.AutoConfig.from_pretrained(model_id, trust_remote_code=True)
torch_model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    config=config, 
    trust_remote_code=True
)
torch_model.eval()

input = torch.randint(0, 50264, (1, 512), dtype=torch.long)
torch_out = torch_model(input, position_ids=None,)
torch_out = torch.nn.functional.softmax(torch_out.logits, dim=-1)
print(torch_out.shape)