模型:
microsoft/bloom-deepspeed-inference-fp16
这是一个更高效的副本,可以与 DeepSpeed-MII 和 DeepSpeed-Inference 一起使用,以便在8个GPU上运行模型。在这个存储库中,原始张量被拆分为8个碎片,以适应DeepSpeed-inference Tensor Parallelism。
关于BLOOM模型本身的具体细节,请参见 original BLOOM model card 。
关于如何使用这个存储库的示例,请参见以下内容: