模型:
stanfordnlp/backpack-gpt2
Backpack-GPT2语言模型是的一种实例,旨在将强大的建模性能与可解释性和控制界面相结合。关于该模型及其训练的大部分细节应在论文中查阅。
详见 backpackmodels.science。
Backpack-GPT2是一种的 Backpack-based language model ,旨在将强大的建模性能与可解释性和控制界面相结合。
该模型用于研究和开发自然语言处理中越来越可解释的方法。它不适用于任何实际生产用途。
大量研究已探讨语言模型的偏见和公平性问题(参见例如 Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测可能包含保护类别、身份特征以及敏感的社会与职业群体之间的令人不安和有害的刻板印象。这个特定模型在能力上有限,由于是全新的架构,对其偏见的了解较少,相比Transformer模型等模型来说。
该模型在 OpenWebText 语料库上进行了训练。
该模型通过100k个梯度步骤进行了训练,批量大小为512k个标记,学习率从6e-4线性衰减至零,具有5k步的线性预热。
该模型经过训练以最小化交叉熵损失,是一个 Backpack language model 模型。
该模型在一个slurm集群上进行了训练。
该模型在4个A100上进行了训练。
该模型使用了 FlashAttention 和 PyTorch 进行训练。
BibTeX:
@InProceedings{hewitt2023backpack, author = "Hewitt, John and Thickstun, John and Manning, Christopher D. and Liang, Percy", title = "Backpack Language Models", booktitle = "Proceedings of the Association for Computational Linguistics", year = "2023", publisher = "Association for Computational Linguistics", location = "Toronto, Canada", }
John Hewitt
johnhew@cs.stanford.edu
import torch import transformers from transformers import AutoModelForCausalLM model_id = "stanfordnlp/backpack-gpt2" config = transformers.AutoConfig.from_pretrained(model_id, trust_remote_code=True) torch_model = AutoModelForCausalLM.from_pretrained(model_id, config=config, trust_remote_code=True) torch_model.eval() input = torch.randint(0, 50264, (1, 512), dtype=torch.long) torch_out = torch_model( input, position_ids=None, ) torch_out = torch.nn.functional.softmax(torch_out.logits, dim=-1) print(torch_out)点击展开
需要更多信息