腾讯混元DiT升级:推出6G小显存版本，支持Kohya训练

2024年07月05日由 daydream 发表 361 0

腾讯近期宣布，其混元文生图大模型（混元DiT）已推出小显存版本，该版本对硬件要求显著降低，仅需6G显存即可运行，极大地方便了个人电脑用户进行本地部署和开发。此版本已与Diffusers库中的LoRA、ControlNet等插件完成适配，并新增了对Kohya图形化界面的支持，进一步降低了开发者训练个性化LoRA模型的门槛。

微信截图_20240705101606

同时，混元DiT模型升级至1.2版本，在图像生成的质量和构图能力上均有所提升，为用户带来更加优质的文生图体验。此外，腾讯还正式开源了“混元Captioner”打标模型，该模型专注于文生图场景，支持中英文双语，能够更精准地理解与表达中文语义，生成的图片描述更为结构化、完整和准确，尤其擅长识别知名人物与地标。

屏幕截图_5-7-2024_101037_mp.weixin.qq.com

混元Captioner的开源，意味着开发者可以快速生成高质量的文生图数据集。通过将原始图片集或图片与描述导入该模型，开发者可以获得结构化的、高质量的标注，从而提升数据集的质量。该模型还允许开发者补充和导入个性化的背景知识，以满足特定需求。

值得注意的是，混元DiT小显存版本的推出，是与Hugging Face合作的结果，双方共同将这一版本及LoRA、ControlNet插件适配至Diffusers库，简化了调用流程，使得开发者仅需简单几行代码即可实现功能调用。此外，混元DiT还接入了Kohya平台，通过图形化界面，开发者可以方便地进行模型的全参精调和LoRA训练，进一步降低了技术门槛。

混元Captioner模型则针对文生图场景进行了优化，通过构建结构化的图片描述体系和注入多种来源的背景知识，提升了描述的完整性和准确性。这一模型的出现，有望解决业界在图片描述文本生成方面存在的描述简单、繁琐或缺乏背景知识等问题，尤其对于中文用户来说，其精准的中文描述能力将是一大亮点。

自全面开源以来，混元DiT模型凭借其易用性和高性能，受到了众多开发者的关注和支持。短短两个月内，其在Github上的Star数已超过2.6k，成为最受欢迎的国产DiT开源模型之一。腾讯方面表示，将继续致力于完善混元DiT的生态建设，为开发者提供更加便捷、高效的工具和服务。

文章来源：https://mp.weixin.qq.com/s/SoetAIDZAcebpOvAafJRcA

标签：

腾讯大模型混元DiT

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI推出用于识别GPT输出代码错误的模型CriticGPT

下一篇清华大学开源CodeGeeX4-ALL-9B：代码生成技术迎来革新性突破

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

每个人都应该知道的48个AI术语