模型:
stanford-crfm/levanter-backpack-1b
这是一个具有强大建模性能和解释性和控制性接口的1.4B参数版本的 Backpack architecture 模型。
该模型是在 OpenWebText 语料库上进行训练的。
该模型进行了450k个梯度步骤的训练,并使用余弦衰减学习率从1e-4衰减到零,其中线性预热了5k个步骤。
该模型是通过最小化交叉熵损失进行训练的,是一个 Backpack language model 。
请安装 transformers、safetensors和torch来使用该模型。
pip install transformers safetensors torch
运行以下Python代码:
import torch import transformers from transformers import AutoModelForCausalLM model_id = "stanford-crfm/levanter-backpack-1b" config = transformers.AutoConfig.from_pretrained(model_id, trust_remote_code=True) torch_model = AutoModelForCausalLM.from_pretrained( model_id, config=config, trust_remote_code=True ) torch_model.eval() input = torch.randint(0, 50264, (1, 512), dtype=torch.long) torch_out = torch_model(input, position_ids=None,) torch_out = torch.nn.functional.softmax(torch_out.logits, dim=-1) print(torch_out.shape)