Google推出Veo 3视频生成AI模型可以生成视频并附带配乐

周二，在Google I/O 2025 开发者大会上，Google发布了 Veo 3。该公司声称，这款产品可以生成音效、背景噪音，甚至对话，为其制作的视频增添配乐。Google表示，Veo 3 在生成的视频质量方面也比上一代Veo 2有所提升。

Veo 3 从周二开始在Google的 Gemini 聊天机器人应用程序中推出，供Google每月 249.99 美元的 AI Ultra 计划订阅者使用，可以通过文本或图像进行提示。

Google人工智能研发部门 DeepMind 的首席执行官 Demis Hassabis 在新闻发布会上表示：“我们首次摆脱了视频生成的无声时代。你可以给 Veo 3 一个描述人物和环境的提示，并根据你希望的声音效果提出对话建议。”

视频生成器工具的广泛普及，导致供应商数量激增，该领域已趋于饱和。包括 Runway、 Lightricks、Genmo、 Pika、 Higgsfield、Kling 和 Luma在内的初创公司，以及 OpenAI和阿里巴巴等科技巨头，都在快速发布各种模型。在很多情况下，不同模型之间几乎没有什么区别。

如果Google能够兑现其承诺，音频输出将成为 Veo 3 的一大差异化优势。人工智能声音生成工具并不新鲜，用于创建视频音效的模型也并非新鲜事物。但据Google称，Veo 3 的独特之处在于它能够理解视频中的原始像素，并自动将生成的声音与视频片段同步。

以下是该模型的一个示例剪辑：

Veo 3 的诞生很可能得益于DeepMind 早期在“视频转音频”人工智能领域的研究。去年 6 月，DeepMind 透露，他们正在开发一种人工智能技术，通过结合声音、对话记录和视频片段来训练模型，从而为视频生成配乐。

DeepMind 不愿透露 Veo 3 训练内容的具体来源，但 YouTube 的可能性很大。YouTube 是Google旗下的子公司，DeepMind 此前曾透露，像 Veo 这样的Google模型“可能”会使用一些 YouTube 内容进行训练。

为了降低深度伪造的风险，DeepMind 表示正在使用其专有水印技术 SynthID 将隐形标记嵌入到 Veo 3 生成的帧中。

尽管像Google这样的公司将 Veo 3 宣传为强大的创意工具，但许多艺术家对它们仍抱有警惕，这可以理解——它们可能会颠覆整个行业。代表好莱坞动画师和漫画家的工会——美国动画协会 (Animation Guild) 委托进行的一项 2024 年研究估计，到 2026 年，美国将有超过 10 万个电影、电视和动画工作岗位被人工智能取代。

Google今天还推出了 Veo 2 的新功能，其中包括一项功能，允许用户为模型提供人物、场景、物体和风格的图像，以提高一致性。最新的 Veo 2 可以理解摄像机的旋转、推拉和缩放等运动，并允许用户在视频中添加或删除对象，或扩展视频片段的帧率，例如将视频从纵向转换为横向。

Google表示，所有这些新的 Veo 2 功能将在未来几周内登陆其 Vertex AI API 平台。