当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > OmniGen2开源，智源多模态模型发布

OmniGen2开源，智源多模态模型发布

2025-07-08 10:06:25 0浏览收藏

主要功能

文本生成图像：可以根据文字描述生成高清晰度且美观的图像，在多个评测基准中表现优异，如在 GenEval 和 DPG-Bench 上分别获得 0.86 和 83.57 的分数。
指令驱动图像修改：支持复杂指令下的图像编辑操作，包括局部更改（如更换服装颜色）和整体风格变换（如将照片转换为漫画风格）。在图像编辑任务中，OmniGen2 在多个测试中实现了编辑精准性与图像质量之间的良好平衡。
上下文相关生成：可处理并灵活结合多种输入元素（如人物、参考对象和场景），产生新颖且连贯的视觉效果。在 OmniContext 基准测试中，OmniGen2 在视觉一致性方面比现有开源模型高出15%以上。
图像理解能力：继承自 Qwen-VL-2.5 基础模型，具有出色的图像内容解析和分析能力。

双路径结构：OmniGen2 设计了独立的文本与图像解码路径，分别负责处理各自模态的数据。文本部分基于 Qwen2.5-VL-3B 多模态语言模型（MLLM），而图像生成则由一个单独的扩散 Transformer 模块完成，避免了文本生成过程对图像质量的影响。
扩散 Transformer 技术：图像生成模块使用了一个包含 32 层的扩散 Transformer，隐藏维度为 2520，总参数量约为 40 亿。该模块采用修正流（Rectified Flow）方法以提升图像生成效率。
Omni-RoPE 位置嵌入：引入了一种创新的多模态旋转位置编码机制（Omni-RoPE），将位置信息拆分为序列标识符、模态类型、二维坐标等要素，实现对图像每个位置的精确编码，并支持多图空间定位和身份识别。
自我优化机制：设计了专门的反思机制，用于提高图像生成的质量与一致性，使模型能够在多轮生成中不断优化输出结果。
分阶段训练策略：首先在文字转图像任务上预训练扩散模型，随后引入混合任务进行联合训练，最终实施端到端训练以增强反思能力。
数据筛选流程：训练数据来源于视频提取，经过多重过滤步骤，包括 DINO 相似性筛选和 VLM 一致性验证，确保训练集的高质量。