周二,在Google I/O 2025 开发者大会上,Google发布了 Veo 3。该公司声称,这款产品可以生成音效、背景噪音,甚至对话,为其制作的视频增添配乐。Google表示,Veo 3 在生成的视频质量方面也比上一代Veo 2有所提升。
Veo 3 从周二开始在Google的 Gemini 聊天机器人应用程序中推出,供Google每月 249.99 美元的 AI Ultra 计划订阅者使用,可以通过文本或图像进行提示。
Google人工智能研发部门 DeepMind 的首席执行官 Demis Hassabis 在新闻发布会上表示:“我们首次摆脱了视频生成的无声时代。你可以给 Veo 3 一个描述人物和环境的提示,并根据你希望的声音效果提出对话建议。”
视频生成器工具的广泛普及,导致供应商数量激增,该领域已趋于饱和。包括 Runway、 Lightricks、Genmo、 Pika、 Higgsfield、Kling 和 Luma在内的初创公司,以及 OpenAI和阿里巴巴等科技巨头,都在快速发布各种模型。在很多情况下,不同模型之间几乎没有什么区别。
如果Google能够兑现其承诺,音频输出将成为 Veo 3 的一大差异化优势。人工智能声音生成工具并不新鲜,用于创建视频 音效 的模型也并非新鲜事物。但据Google称,Veo 3 的独特之处在于它能够理解视频中的原始像素,并自动将生成的声音与视频片段同步。
以下是该模型的一个示例剪辑:
Veo 3 的诞生很可能得益于DeepMind 早期在“视频转音频”人工智能领域的研究。去年 6 月,DeepMind 透露,他们正在开发一种人工智能技术,通过结合声音、对话记录和视频片段来训练模型,从而为视频生成配乐。
DeepMind 不愿透露 Veo 3 训练内容的具体来源,但 YouTube 的可能性很大。YouTube 是Google旗下的子公司,DeepMind 此前曾透露,像 Veo 这样的Google模型“可能”会使用一些 YouTube 内容进行训练。
为了降低深度伪造的风险,DeepMind 表示正在使用其专有水印技术 SynthID 将隐形标记嵌入到 Veo 3 生成的帧中。
尽管像Google这样的公司将 Veo 3 宣传为强大的创意工具,但许多艺术家对它们仍抱有警惕,这可以理解——它们可能会颠覆整个行业。代表好莱坞动画师和漫画家的工会——美国动画协会 (Animation Guild) 委托进行的一项 2024 年 研究 估计,到 2026 年,美国将有超过 10 万个电影、电视和动画工作岗位被人工智能取代。
Google今天还推出了 Veo 2 的新功能,其中包括一项功能,允许用户为模型提供人物、场景、物体和风格的图像,以提高一致性。最新的 Veo 2 可以理解摄像机的旋转、推拉和缩放等运动,并允许用户在视频中添加或删除对象,或扩展视频片段的帧率,例如将视频从纵向转换为横向。
Google表示,所有这些新的 Veo 2 功能将在未来几周内登陆其 Vertex AI API 平台。