当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 复旦大学与字节Seed团队发布SimpleAR图像生成模型

复旦大学与字节Seed团队发布SimpleAR图像生成模型

2025-04-24 15:28:19 0浏览收藏

复旦大学视觉与学习实验室和字节Seed团队联合推出的SimpleAR图像生成模型，采用纯自回归架构，仅需5亿参数即可生成1024×1024分辨率的高质量图像。SimpleAR在GenEval等基准测试中表现出色，通过“预训练-有监督微调-强化学习”三阶段训练方法，显著提升了文本跟随能力和生成效果。该模型兼容现有加速技术，推理时间可缩短至14秒以内，适用于创意设计、虚拟场景构建等多种应用场景。

SimpleAR 是什么

SimpleAR 是一款由复旦大学视觉与学习实验室和字节 Seed 团队联合推出的图像生成模型。它采用纯自回归架构，通过优化训练和推理过程，实现了高质量的图像生成。SimpleAR 仅需 5 亿参数便可生成 1024×1024 分辨率的图像，在 GenEval 等基准测试中表现出色。训练过程分为“预训练 - 有监督微调 - 强化学习”三阶段，显著提升了文本跟随能力和生成效果。SimpleAR 还兼容现有的加速技术，推理时间可缩短至 14 秒以内。

SimpleAR 的主要功能

高质量文本到图像生成：SimpleAR 作为纯自回归的视觉生成框架，仅需 5 亿参数便能生成 1024×1024 分辨率的高质量图像，在 GenEval 等基准测试中取得了 0.59 的优异成绩。
多模态融合生成：SimpleAR 将文本和视觉 token 视为平等，融入一个统一的 Transformer 架构中，支持多模态建模，提升了文本引导图像生成的效果。

SimpleAR 的技术原理

自回归生成机制：SimpleAR 采用传统的自回归生成方式，通过预测“下一个 token”逐步构建图像内容。这种方法将图像分解为离散的 token，并逐个预测这些 token，从而生成完整的图像。
多模态融合：SimpleAR 将文本编码和视觉生成集成在一个 decoder-only 的 Transformer 架构中，提高了参数利用效率，支持文本和视觉模态之间的联合建模，使模型更自然地理解和生成与文本描述对应的图像。
三阶段训练方法：
- 预训练：通过大规模数据预训练，学习通用的视觉和语言模式。
- 有监督微调（SFT）：在预训练基础上，通过有监督学习进一步提升生成质量和指令跟随能力。
- 强化学习（GRPO）：基于简单的 reward 函数（如 CLIP）进行后训练，优化生成内容的美学性和多模态对齐。
推理加速技术：SimpleAR 利用 vLLM 等技术优化推理过程，显著缩短了图像生成时间。例如，0.5B 参数的模型可以在 14 秒内生成 1024×1024 分辨率的高质量图像。
视觉 tokenizer 的选择：SimpleAR 使用 Cosmos 作为视觉 tokenizer，但在低分辨率图像和细节重建上仍有改进空间。

SimpleAR 的项目地址

Github仓库：http://github.com/wdrink/SimpleAR
HuggingFace模型库：http://huggingface.co/papers/2504.11455
arXiv技术论文：http://arxiv.org/pdf/2504.11455

SimpleAR 的应用场景

创意设计：SimpleAR 可以帮助设计师快速生成高质量的图像，用于广告设计、海报制作、艺术创作等。
虚拟场景构建：通过文本描述生成虚拟场景，为游戏开发、虚拟现实（VR）和增强现实（AR）应用提供素材。
多模态机器翻译：SimpleAR 的多模态融合能力可用于将图像信息与文本翻译相结合，提升翻译的准确性和丰富性。
视频描述生成：通过将图像生成与视频内容结合，为视频生成详细的描述文本。
增强现实（AR）与虚拟现实（VR）：SimpleAR 可以生成与现实场景高度融合的虚拟图像，用于工业维修、教育演示、旅游导览等场景。同时，为虚拟现实应用生成高质量的虚拟环境和物体，提升用户体验。
图像增强与修复：SimpleAR 可以用于增强低分辨率图像的细节，提升图像质量。通过生成缺失或损坏部分的图像内容，实现图像的修复。

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~