当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Veo3震撼发布，谷歌新一代视频模型登场

Veo3震撼发布，谷歌新一代视频模型登场

2025-05-26 09:54:44 0浏览收藏

Veo 3是什么

Veo 3是谷歌I/O开发者大会上发布的新一代视频生成模型。Veo 3是谷歌首个可生成视频背景音效的模型，能合成画面，能为鸟鸣、街头交通等场景配上相应的音效，可生成人物对话。模型在物理模拟与口型同步方面表现出色，视频中的人物口型能与生成的对话完美匹配。Veo 3能生成高质量的1080P视频，在细节、光照准确性和减少伪影方面表现出色。支持生成超过60秒的视频片段。支持多种视觉风格，适用于不同的创意需求。目前，Veo 3仅面向美国地区的Gemini Ultra用户以及Vertex AI的企业用户开放，已集成谷歌的AI影视制作工具Flow中。

Veo 3的主要功能

音效与对话生成：Veo 3是谷歌首个可生成视频背景音效的模型，能合成画面，能为鸟鸣、街头交通等场景配上相应的音效，可生成人物对话。
物理模拟与口型同步：模型在物理模拟与口型同步方面表现出色，视频中的人物口型能与生成的对话完美匹配。
高质量视频生成：Veo 3能生成高质量的1080P视频，在细节、光照准确性和减少伪影方面表现出色。
长片段生成：Veo 3能生成超过60秒的视频片段。
多样化风格：Veo 3支持多种视觉风格，适用于不同的创意需求。
多模态输入：Veo 3能处理和理解多种类型的输入，包括文本、图像和视频。

Veo 3的技术原理

基于先进生成模型：Veo 3建立在一系列先进的生成模型之上，如Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等。模型为Veo 3提供了生成高质量视频内容的技术基础。
采用Transformer架构：Veo 3采用了Transformer架构，通过自注意力机制能更好地捕捉文本提示中的细微差别。在自然语言处理和其他序列任务中表现出色，使Veo 3能更准确地理解用户输入的文本描述，生成相应的视频内容。
整合Gemini模型技术：Veo 3整合了Gemini模型的技术，模型在理解视觉内容和生成视频方面具有先进的能力。Gemini模型的深度学习能力与Veo 3的视频生成技术相结合，能更高效地生成高质量的视频。
高保真度视频表示：Veo 3使用高质量的压缩视频表示（latents），能以较小的数据量捕捉视频的关键信息，提高视频生成的效率和质量。
多模态数据训练：Veo 3的训练过程涉及多模态数据，包括视觉数据、音频数据和文本数据。使Veo 3能更好地理解和生成与文本描述相符的视频内容。