模型:
KoboldAI/fairseq-dense-125M
这是一篇与Hugging Face transformers兼容的转换,将Artetxe等人在论文“ Efficient Large Scale Language Modeling with Mixtures of Experts ”中的原始密集模型转换而来。请参阅原始模型卡片,可在 https://github.com/facebookresearch/fairseq/blob/main/examples/moe_lm/model_card.md 中找到。