精准渲染 + 智能叙事:Gemini 2.0 Flash 原生图像生成功能正式开放

2025年03月13日 由 daydream 发表 4153 0

Gemini 2.0 Flash向所有Google AI Studio支持的地区开放了原生图像输出功能的实验性版本。此前,该功能已在去年12月面向部分受信任的测试者进行了初步介绍。


微信截图_20250313161737


Gemini 2.0 Flash结合了多模态输入、增强的推理能力和自然语言理解能力,能够生成图像。该功能的几个应用场景尤为突出:




一、文本与图像的融合使用。用户可以通过Gemini 2.0 Flash讲述一个故事,并让它用图片进行插图,保持角色和场景的一致性。用户还可以提供反馈,模型会根据反馈重新讲述故事或改变绘图风格。


二、对话式图像编辑。Gemini 2.0 Flash支持通过多轮自然语言对话进行图像编辑,这对于迭代出完美图像或共同探索不同想法非常有用。


三、世界知识理解。与其他许多图像生成模型不同,Gemini 2.0 Flash利用世界知识和增强的推理能力来创建正确的图像。这使得它在创建如食谱插图等详细且逼真的图像方面表现出色。尽管它力求准确,但其知识广泛且一般,并非绝对或完整。


四、文本渲染。许多图像生成模型在准确渲染长文本序列方面存在困难,往往导致字符格式不佳、难以辨认或拼写错误。内部基准测试显示,Gemini 2.0 Flash在文本渲染方面相较于领先的竞争模型表现更强,非常适合创建广告、社交帖子甚至邀请函。


目前,开发者可以通过Gemini API开始使用Gemini 2.0 Flash的原生图像生成功能。相关文档提供了更多关于图像生成的详细信息。


无论是构建AI代理、开发具有美丽视觉效果的应用程序(如插图式互动故事),还是在对话中进行视觉创意头脑风暴,Gemini 2.0 Flash都允许用户通过单个模型实现文本和图像的生成。开发者的反馈将有助于进一步完善该功能,推动其向生产就绪版本迈进。

文章来源:https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消