模型:

bigscience/bloomz-7b1-mt

任务:

文本生成

类库:

PyTorch TensorBoard Transformers

数据集:

bigscience/xP3mt 3Abigscience/xP3mt

语言:

其他:

bloom Eval Results text-generation-inference

预印本库:

arxiv:2211.01786

许可:

bigscience-bloom-rail-1.0

模型介绍文件清单

英文

模型摘要

我们提出了BLOOMZ & mT0，一系列能够零次转化成多种语言的模型。我们在跨语言任务混合（xP3）上微调了BLOOM & mT5预训练的多语言模型，发现得到的模型能够对未见任务和未见语言进行跨语言泛化。

仓库： bigscience-workshop/xmtf
论文： Crosslingual Generalization through Multitask Finetuning
联系人：Niklas Muennighoff
语言：参考 bloom 进行预训练和 xP3 进行微调的语言比例。它能理解预训练语言和微调语言。
BLOOMZ & mT0模型家族：

Multitask finetuned on 1239321 . Recommended for prompting in English.
Parameters	300M	580M	1.2B	3.7B	13B	560M	1.1B	1.7B	3B	7.1B	176B
Finetuned Model	12310321	12311321	12312321	12313321	12314321	12315321	12316321	12317321	12318321	12319321	12320321
Multitask finetuned on 12321321 . Recommended for prompting in non-English.
Finetuned Model	12322321	12323321	12324321
Multitask finetuned on 12325321 . Released for research purposes only. Strictly inferior to above models!
Finetuned Model	12326321	12327321	12328321
Original pretrained checkpoints. Not recommended.
Pretrained Model	12329321	12330321	12331321	12332321	12333321	12334321	12335321	12336321	12337321	12338321	12339321

用途

预期使用

我们建议使用该模型执行用自然语言表达的任务。例如，给定提示“翻译成英语：Je t’aime。”，该模型很可能会回答“我爱你。”我们的论文中提供了一些提示的创意：

一个传奇的开端，一个不灭的神话，这不仅仅是一部电影，而是作为一个走进新时代的标签，永远彪炳史册。你认为这句话的立场是赞扬、中立还是批评？
建议至少给出与“Mạng neural nhân tạo”相关的五个搜索词。
写一个关于巨魔从危险的龙手中救出公主的童话故事。这部童话是一部在全世界获得好评的杰作，其寓意是“英雄形形色色”。故事（用西班牙语）：
用泰卢固语的一句话解释神经网络中的反向传播是什么。

欢迎在“社区”选项卡中分享您的生成结果！

如何使用

CPU

点击展开

# pip install -q transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigscience/bloomz-7b1-mt"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint)

inputs = tokenizer.encode("Translate to English: Je t’aime.", return_tensors="pt")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

GPU

点击展开

# pip install -q transformers accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigscience/bloomz-7b1-mt"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, torch_dtype="auto", device_map="auto")

inputs = tokenizer.encode("Translate to English: Je t’aime.", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

以8位格式的GPU

点击展开

# pip install -q transformers accelerate bitsandbytes
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "bigscience/bloomz-7b1-mt"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", load_in_8bit=True)

inputs = tokenizer.encode("Translate to English: Je t’aime.", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))

限制

提示工程：性能可能因提示的不同而有所差异。对于BLOOMZ模型，我们建议在输入结束时明确表示，以避免模型尝试继续生成。例如，没有句号（.）的提示“翻译成英语：Je t'aime”，可能导致模型试图继续生成法语句子。更好的提示示例包括“翻译成英语：Je t'aime.”，“翻译成英语：Je t'aime.翻译：”或““Je t'aime.”在英语中是什么意思？”等，这样模型就清楚应该在何时回答。此外，我们建议尽可能为模型提供更多的上下文。例如，如果您希望它用泰卢固语回答，请告诉模型，例如“用泰卢固语的一句话解释神经网络中的反向传播是什么。”。

训练

模型

架构：与 bloom-7b1 相同，还可以参考config.json文件
微调步数：1000
微调标记：41.9亿
微调布局：1x流水线并行，1x张量并行，64x数据并行
精度：float16

硬件

CPU：每个节点配备512GB内存的AMD CPU
GPU：使用64个A100 80GB GPU（每个节点8个GPU），使用NVLink 4个互联GPU连接，4个OmniPath链路
通信：带有专用子网的NCCL通信网络

软件

编排： Megatron-DeepSpeed
优化器和并行处理： DeepSpeed
神经网络： PyTorch （基于pytorch-1.11和CUDA-11.5）
如适用，使用FP16： apex

评估

我们参考我们的 paper 和 bigscience/evaluation-results 中的表7，了解对未见任务的零次转化结果。侧边栏报告了每个数据集配置中最佳提示的零次转化性能。

引用

@misc{muennighoff2022crosslingual,
      title={Crosslingual Generalization through Multitask Finetuning}, 
      author={Niklas Muennighoff and Thomas Wang and Lintang Sutawika and Adam Roberts and Stella Biderman and Teven Le Scao and M Saiful Bari and Sheng Shen and Zheng-Xin Yong and Hailey Schoelkopf and Xiangru Tang and Dragomir Radev and Alham Fikri Aji and Khalid Almubarak and Samuel Albanie and Zaid Alyafeai and Albert Webson and Edward Raff and Colin Raffel},
      year={2022},
      eprint={2211.01786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

作者:

BigScience Workshop

数据集大小:

13.2 GB

目录

模型摘要

用途

预期使用

如何使用

CPU

GPU

以8位格式的GPU

限制

训练

模型

硬件

软件

评估

引用