当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 谷歌与麻省理工联手推出UniFluid多模态图像框架

谷歌与麻省理工联手推出UniFluid多模态图像框架

2025-03-27 10:47:54 0浏览收藏

UniFluid，由谷歌DeepMind和麻省理工学院联合推出，是一个突破性的多模态图像生成与理解框架。该框架基于预训练的Gemma模型，采用统一的自回归架构，能够同时处理图像生成和理解任务，支持图像和文本的多模态输入。通过连续视觉标记和精心设计的训练方案，UniFluid在图像生成（如文本转图像）和理解（如图像描述、视觉问答）任务上均取得了显著成果，并展现出强大的下游任务迁移能力，适用于图像编辑、创意设计、智能客服等多个领域，为多模态人工智能研究提供了新的方向。

UniFluid：谷歌DeepMind与麻省理工学院联合研发的多模态视觉生成与理解框架

UniFluid是由谷歌DeepMind和麻省理工学院合作推出的一个统一的自回归框架，用于同时处理视觉生成和理解任务。它通过处理连续视觉标记来处理多模态图像和文本输入，并生成离散文本标记和连续图像标记。该框架基于预训练的Gemma模型，利用配对的图像-文本数据进行训练，实现生成和理解任务的相互促进。UniFluid采用标准的SentencePiece作为文本标记器，使用连续变分自编码器（VAE）作为图像生成的标记器，并结合SigLIP图像编码器用于理解任务。通过精心设计的训练方案和损失权重平衡，UniFluid在图像生成和理解任务上均取得了与单任务基线相当或更好的结果，展现出强大的下游任务迁移能力，例如图像编辑、视觉描述和问答等。

UniFluid— 谷歌联合麻省理工推出的多模态图像生成与理解框架

核心功能:

统一的视觉生成与理解: 同时进行图像生成（例如，根据文本描述生成图像）和视觉理解（例如，图像描述、视觉问答）。
多模态输入: 支持图像和文本的多模态输入，并将两者嵌入到同一空间进行联合训练。
高质量图像生成: 基于连续视觉标记生成高质量图像，并支持随机生成顺序以提高生成质量。
强大的视觉理解能力: 在视觉问答和图像描述等任务中表现出色，并支持多种下游应用。
高效的下游任务迁移: 能够快速适应图像编辑、视觉问答等下游任务，展现出优秀的通用性和可扩展性。

技术原理:

UniFluid的核心是一个统一的自回归框架。它将图像和文本输入嵌入到同一个潜在空间，并基于“下一个标记预测”的机制统一处理视觉生成和理解任务。图像使用连续变分自编码器（VAE）编码成连续标记，避免了离散标记造成的潜在信息损失，保留了图像的连续性特征。模型采用模态特定的预测头（文本生成任务使用分类头，图像生成任务使用扩散头），确保在不同模态下都能有效训练和推理。此外，UniFluid在图像生成中采用随机生成顺序，避免了固定顺序（例如，光栅顺序）可能导致的生成问题。通过调整图像生成和文本理解任务的损失权重，实现了两个任务之间的平衡，从而在生成和理解任务上都取得了优异的表现。该框架基于预训练的大型语言模型（LLM）Gemma，利用其强大的语言和视觉理解能力进一步提升整体性能。

项目信息: