谷歌宣布为其视频AI模型Veo 2推出多项新功能,旨在提升用户生成电影级视频及编辑真实素材的能力。这些新功能已可通过谷歌云的Vertex AI平台进行预览,同时谷歌还对其文本转图像生成器Imagen 3及音频相关AI模型进行了升级。
Veo 2新增功能包括视频修复(inpainting)与扩展(outpainting)。视频修复可自动移除视频中的背景图像、标识或干扰元素;视频扩展则能将原始视频帧扩展至不同格式,并填充由AI生成的视频素材,与原视频自然融合,功能类似Adobe的图像生成扩展工具。
此外,Veo 2用户现在可在生成视频时选择预设的拍摄技巧,如延时摄影、无人机视角及不同方向的模拟平移等,以指导镜头构图、拍摄角度和节奏。新增的插值功能可实现两张静态图像间的视频过渡,自动生成起始和结束序列的过渡帧。
在文本转图像模型Imagen 3方面,谷歌更新了其编辑功能,显著提升了自动移除对象的效果,使移除干扰元素后的结果更加自然。Veo 2和Imagen 3已被多家企业应用于营销内容制作,如欧莱雅和卡夫亨氏,大幅缩短了制作周期。
音频领域,谷歌推出了文本转音乐模型Lyria的私人预览版,以及合成语音模型Chirp 3的“即时定制语音”功能。Chirp 3现在仅需10秒音频输入即可生成逼真的定制语音,并新增了通话转录功能,可识别并分离不同说话者,提供更清晰的通话记录。
除上述更新外,谷歌还宣布了多项AI相关进展。效率优化的Flash模型Gemini 2.5 Flash即将在Vertex AI上线,该模型可根据任务复杂度自动调整处理时间,加快简单请求的响应速度。谷歌还更新了其面向企业的Agentic AI工具,允许AI代理在PayPal和Salesforce等平台间通信并执行任务。同时,谷歌云市场新增了第三方AI代理购买专区,方便企业浏览和采购。