当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 字节Seed与港大联手推出视觉生成强化学习框架DanceGRPO

字节Seed与港大联手推出视觉生成强化学习框架DanceGRPO

2025-05-23 09:00:57 0浏览收藏

DanceGRPO的核心功能

提高视觉生成质量：使生成的图像和视频更加贴近人类审美，更加真实、自然。
整合多种生成模式和任务：支持文本到图像、文本到视频、图像到视频等多种任务类型。
兼容多种模型与奖励机制：适配多种基础模型和奖励模型，以满足多样化的使用需求。
优化训练效率与稳定性：减轻显存负担，加速训练进程，增强训练的可靠性。
强化人类反馈学习能力：促使模型更有效地从人类反馈中学习，生成更符合人类期待的内容。

DanceGRPO的工作原理

将去噪过程建模为马尔可夫决策过程：把扩散模型和修正流模型的去噪步骤视为马尔可夫决策过程（MDP），其中提示被视为状态的一部分，去噪过程中的每个步骤都被看作是一个动作，从而构建了强化学习的基础架构。
基于随机微分方程的采样方法：为了满足 GRPO 对随机探索的需求，DanceGRPO 将扩散模型和修正流模型的采样流程统一表述为随机微分方程（SDE）的形式。对于扩散模型，正向 SDE 描述的是数据逐步添加噪声的过程，而反向 SDE 则用于生成数据；对于修正流模型，则通过引入 SDE 来实现反向过程的随机性，为强化学习提供了必需的随机探索机制。
利用 GRPO 目标函数进行优化：借鉴 Deepseek-R1 中的 GRPO 策略，针对特定提示生成一组输出样本，并依据最大化 GRPO 的目标函数来优化策略模型。此目标函数兼顾奖励信号及不同样本间的优势函数，使得模型在训练期间能够更高效地学会根据奖励信号调整生成策略，从而提高生成结果的质量及其与人类偏好的契合度。
初始噪声与时间步长选择策略：在 DanceGRPO 框架内，初始噪声的选择至关重要。为了避免奖励操纵现象的发生，DanceGRPO 为源自相同文本提示的所有样本分配共享的初始噪声。此外，DanceGRPO 还采用了一种时间步长选择策略，在不影响性能的前提下减少计算量，提升训练效率。
多奖励模型的集成与优势函数聚合：为了保证训练的稳定性和生成结果的高品质，DanceGRPO 实际操作中会运用多个奖励模型。鉴于不同的奖励模型可能存在不同的量纲和分布，DanceGRPO 采取基于优势函数聚合的方式，更好地协调各奖励模型的贡献，使模型在优化过程中全面考量多个评估指标，生成更贴合人类预期的视觉内容。