模型:

togethercomputer/RedPajama-INCITE-Instruct-3B-v1

任务:

类库:

数据集:

togethercomputer/RedPajama-Data-1T Muennighoff/P3 Muennighoff/natural-instructions 3AMuennighoff/natural-instructions 3AMuennighoff/P3 3Atogethercomputer/RedPajama-Data-1T

语言:

其他:

gpt_neox text-generation-inference

许可:

apache-2.0

模型介绍文件清单

英文

RedPajama-INCITE-Instruct-3B-v1

RedPajama-INCITE-Instruct-3B-v1由Together以及来自开源AI社区的Ontocord.ai、ETH DS3Lab、AAI CERC、蒙特利尔大学、MILA - 魁北克AI研究所、斯坦福大学基础模型研究中心（CRFM）、斯坦福大学Hazy研究小组和LAION的领导者共同开发。

该模型是在 GPT-JT 的数据上进行少样本应用的微调，排除与HELM核心场景重叠的任务。

基础模型： RedPajama-INCITE-Base-3B-v1
指导优化版本： RedPajama-INCITE-Instruct-3B-v1
聊天版本： RedPajama-INCITE-Chat-3B-v1

模型详情

开发者：Together Computer.
模型类型：语言模型
语言：英语
许可证：Apache 2.0
模型描述：一个拥有2.8B参数的预训练语言模型

快速开始

请注意，该模型需要transformers版本>=4.25.1。

GPU推断

需要具有8GB内存的GPU。

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-Instruct-3B-v1")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-Instruct-3B-v1", torch_dtype=torch.float16)
model = model.to('cuda:0')
# infer
prompt = "Q: The capital of France is?\nA:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Paris
"""

以Int8格式进行GPU推断

需要具有6GB内存的GPU。

要以Int8格式运行推断，请确保已安装加速库和BitAndBytes。可以使用以下命令安装它们：

pip install accelerate
pip install bitsandbytes

然后，您可以按以下步骤以Int8格式运行推断：

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-Instruct-3B-v1")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-Instruct-3B-v1", device_map='auto', torch_dtype=torch.float16, load_in_8bit=True)

# infer
prompt = "Q: The capital of France is?\nA:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Paris
"""

CPU推断

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-Instruct-3B-v1")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-Instruct-3B-v1", torch_dtype=torch.bfloat16)
# infer
prompt = "Q: The capital of France is?\nA:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Paris
"""

请注意，由于LayerNormKernelImpl在CPU上未实现fp16，我们在CPU推断中使用bfloat16。

用途

直接使用

以下是排除使用情况的描述。

误用、恶意使用和超出范围的使用

终端用户有责任确保以负责任和道德的方式使用模型。

超出范围的使用

RedPajama-INCITE-Instruct-3B-v1是一个语言模型，可能在其预期范围之外的其他用例中表现不佳。例如，它可能不适用于安全关键应用程序或对个人或社会产生重大影响的决策。重要的是要考虑模型的限制，并仅在其预期用途中使用它。

误用和恶意使用

RedPajama-INCITE-Instruct-3B-v1是为语言建模而设计的。严禁滥用模型，如将其用于非法或不道德的活动，这违反了该项目的原则。

滥用该模型生成对个人残忍的内容是错误使用该模型。包括但不限于：

生成虚假新闻、错误信息或宣传
推动仇恨言论、歧视或针对个人或群体的暴力行为
未经个人或组织同意冒充其身份或组织
进行网络欺凌或骚扰
诽谤性内容
垃圾邮件或诈骗
未经适当授权共享机密或敏感信息
违反模型或用于训练模型的数据的使用条款
创建用于恶意目的的自动化机器人，如传播恶意软件、网络钓鱼诈骗或垃圾邮件

限制

RedPajama-INCITE-Instruct-3B-v1与其他语言模型一样，有一些限制需要考虑。例如，该模型可能无法始终提供准确或相关的答案，特别是对于复杂、模糊或超出其训练数据范围的问题。因此，我们欢迎个人和组织的贡献，并鼓励合作，共同创建一个更健壮、包容的聊天机器人。

训练

训练数据

请参阅 togethercomputer/RedPajama-Data-1T

训练过程

硬件：8个A100
优化器：Adam
梯度累积：1
令牌数：131M个
学习率：1e-5

社区

加入我们，链接 Together Discord

作者:

Together

数据集大小:

5.3 GB