精准渲染 + 智能叙事：Gemini 2.0 Flash 原生图像生成功能正式开放

2025年03月13日由 daydream 发表 4153 0

Gemini 2.0 Flash向所有Google AI Studio支持的地区开放了原生图像输出功能的实验性版本。此前，该功能已在去年12月面向部分受信任的测试者进行了初步介绍。

微信截图_20250313161737

Gemini 2.0 Flash结合了多模态输入、增强的推理能力和自然语言理解能力，能够生成图像。该功能的几个应用场景尤为突出：

一、文本与图像的融合使用。用户可以通过Gemini 2.0 Flash讲述一个故事，并让它用图片进行插图，保持角色和场景的一致性。用户还可以提供反馈，模型会根据反馈重新讲述故事或改变绘图风格。

二、对话式图像编辑。Gemini 2.0 Flash支持通过多轮自然语言对话进行图像编辑，这对于迭代出完美图像或共同探索不同想法非常有用。

三、世界知识理解。与其他许多图像生成模型不同，Gemini 2.0 Flash利用世界知识和增强的推理能力来创建正确的图像。这使得它在创建如食谱插图等详细且逼真的图像方面表现出色。尽管它力求准确，但其知识广泛且一般，并非绝对或完整。

四、文本渲染。许多图像生成模型在准确渲染长文本序列方面存在困难，往往导致字符格式不佳、难以辨认或拼写错误。内部基准测试显示，Gemini 2.0 Flash在文本渲染方面相较于领先的竞争模型表现更强，非常适合创建广告、社交帖子甚至邀请函。

目前，开发者可以通过Gemini API开始使用Gemini 2.0 Flash的原生图像生成功能。相关文档提供了更多关于图像生成的详细信息。

无论是构建AI代理、开发具有美丽视觉效果的应用程序（如插图式互动故事），还是在对话中进行视觉创意头脑风暴，Gemini 2.0 Flash都允许用户通过单个模型实现文本和图像的生成。开发者的反馈将有助于进一步完善该功能，推动其向生产就绪版本迈进。

文章来源：https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

标签：

Gemini 图像

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Open-Sora 2.0全面开源：低成本、高性能，开启视频生成新纪元

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市