智谱正式发布了其最新的图像生成模型CogView4,并决定将其开源。该模型在复杂语义对齐和指令跟随能力上表现出色,支持任意长度的中英文输入,并能生成指定范围内的任意分辨率图像,同时具备一定的文字生成功能。值得注意的是,CogView4是首个遵循Apache 2.0协议开源的图像生成模型。
在评测方面,CogView4在DPG-Bench基准测试中取得了优异成绩,该测试主要评估文本到图像生成模型在复杂语义对齐和指令跟随能力上的表现。CogView4-6B版本在测试中综合评分排名第一,展现了其在开源文生图模型中的领先地位。
CogView4模型实现了任意长度文本描述和任意分辨率图像的混合训练范式。在图像位置编码上,该模型采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码支持不同分辨率的图像生成。在扩散生成建模方面,CogView4结合了Flow-matching方案和参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。
在架构设计方面,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计了独立的自适应LayerNorm层,以实现模态间的高效适配。此外,该模型还采用了多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练,以确保生成的图像具有高美感并符合人类偏好。
在训练框架优化上,CogView4突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了效率提升。
技术实现上,CogView4将文本编码器从纯英文的T5 encoder更换为具备双语能力的GLM-4 encoder,并通过中英双语图文对进行训练,使模型具备双语提示词输入能力。这一特性使得CogView4更加适合国内广告、短视频等领域的创意需求。
此外,CogView4-6B模型支持Apache 2.0协议,智谱表示后续将陆续增加ControlNet、ComfyUI等生态支持,并推出全套的微调工具包。CogView4模型的发布和开源,将为图像生成领域的研究和应用提供新的选择和参考。