模型:
KoboldAI/fairseq-dense-1.3B
这是来自Artetxe等人论文" Efficient Large Scale Language Modeling with Mixtures of Experts "的原始密集型1.3B参数模型的Hugging Face transformers兼容转换版本。请参考原始模型卡片,可在 https://github.com/facebookresearch/fairseq/blob/main/examples/moe_lm/model_card.md 找到。