豆包大模型团队正式发布了Seedream 2.0图像生成模型的技术报告,全面公开了该模型在数据构建、预训练框架及后训练RLHF等方面的技术细节。
Seedream 2.0模型于2024年12月初在豆包APP和即梦平台上线,已服务于上亿C端用户,并成为众多专业设计师的辅助创作首选。相较于Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro等主流模型,Seedream 2.0在文本渲染能力、对中国文化的理解以及美感、指令遵循等方面均有所提升,支持原生中英双语。
在数据预处理方面,团队构建了以“知识融合”为核心的预处理框架,通过四维数据架构实现质量与知识的动态平衡,利用智能标注引擎实现三级认知进化,并对工程化流程进行重构,实现了百亿数据的流水线并行处理,大幅提高了数据处理效率与质量。
预训练阶段,Seedream 2.0采用了全新的预训练架构设计,重点突破了多语言语义理解、双语文字渲染和多分辨率场景适配等关键技术。团队提出了基于LLM的双语对齐方案,加强了模型对中文语义和文化细节的理解;构建了双模态编码融合系统,使模型能够直接从文本特征中学习渲染属性;并对DiT架构进行了三重升级,使图像生成能够缩放自如,适应不同分辨率需求。
在后训练阶段,Seedream 2.0通过RLHF优化系统提升了整体性能。团队收集并整理了多功能Prompt集合用于奖励模型训练,构建了多维融合注释扩展奖励模型的多维度偏好表征边界;精心制作并训练了三个不同的奖励模型,分别针对图像文本对齐、美学和文本渲染进行专项提升;通过反复学习驱动模型进化,实现了稳定的反馈学习训练,进一步提高了模型性能。
此外,为了全面客观地评估模型,团队还严格构建了Bench-240评测基准,围绕图文匹配度、结构准确率、美感等基础维度进行测试。测试结果显示,Seedream 2.0在英文提示词方面的结构合理性、文本理解准确性均高于主流模型;在中文综合能力方面,其生成与渲染文字的可用率和完美响应率也表现优异。