StableLM-Base-Alpha

模型描述

StableLM-Base-Alpha 是一套使用3B和7B参数进行预训练的仅解码器语言模型。它在一个包含4096个序列长度的多样化的英文和代码数据集上进行预训练，以突破现有开源语言模型的上下文窗口限制。

使用

使用以下代码片段开始使用 StableLM-Base-Alpha 生成文本：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("StabilityAI/stablelm-base-alpha-3b")
model = AutoModelForCausalLM.from_pretrained("StabilityAI/stablelm-base-alpha-3b")
model.half().cuda()

inputs = tokenizer("What's your mood today?", return_tensors="pt").to("cuda")
tokens = model.generate(
  **inputs,
  max_new_tokens=64,
  temperature=0.7,
  do_sample=True,
)
print(tokenizer.decode(tokens[0], skip_special_tokens=True))

模型详情

开发者： Stability AI
模型类型：StableLM-Base-Alpha 模型是基于NeoX Transformer架构的自回归语言模型。
语言：英文
库： GPT-NeoX
许可证：基础模型检查点（StableLM-Base-Alpha）使用Creative Commons许可证（CC BY-SA-4.0）进行许可。根据此许可证，您必须给予Stability AI作者的名字，并提供许可证的链接，并指出是否有进行了修改。您可以以任何合理的方式这样做，但不能以任何方式暗示Stability AI支持您或您的使用方式。
联系方式：有关该模型的问题和评论，请发送电子邮件至lm@stability.ai

训练

Parameters	Hidden Size	Layers	Heads	Sequence Length
3B	4096	16	32	4096
7B	6144	16	48	4096

训练数据集

StableLM-Base-Alpha 是在一个新的实验数据集上进行预训练的，该数据集构建在 The Pile 的基础上，并且大约有1.5T个标记。

训练过程

模型在上述数据集上进行了混合精度（FP16）的预训练，使用Adam进行优化，并使用NeoX分词器进行训练，词汇量为50,257。我们在项目的 GitHub repository 中概述了完整的超参数选择。

使用和限制

预期使用

这些模型旨在供所有个体使用，作为应用特定微调的基础模型，对商业使用没有严格限制。

限制和偏见

预训练数据集可能包含冒犯或不适当的内容，即使经过数据清洗过滤后生成的文本仍可能反映出这些内容。我们建议用户在将这些模型用于生产系统时要谨慎行事。请不要将模型用于可能对个人或群体造成伤害或困扰的任何应用。

引用

@software{gpt-neox-library,
  title = {{GPT-NeoX: Large Scale Autoregressive Language Modeling in PyTorch}},
  author = {Andonian, Alex and Anthony, Quentin and Biderman, Stella and Black, Sid and Gali, Preetham and Gao, Leo and Hallahan, Eric and Levy-Kramer, Josh and Leahy, Connor and Nestler, Lucas and Parker, Kip and Pieler, Michael and Purohit, Shivanshu and Songz, Tri and Phil, Wang and Weinbach, Samuel},
  url = {https://www.github.com/eleutherai/gpt-neox},
  doi = {10.5281/zenodo.5879544},
  month = {8},
  year = {2021},
  version = {0.0.1},
}

作者:

Stability AI

数据集大小:

13.8 GB