当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 扩散模型背后数学太难了，啃不动？谷歌用统一视角讲明白了

扩散模型背后数学太难了，啃不动？谷歌用统一视角讲明白了

来源：51CTO.COM 2023-04-16 11:46:15 0浏览收藏

珍惜时间，勤奋学习！今天给大家带来《扩散模型背后数学太难了，啃不动？谷歌用统一视角讲明白了》，正文内容主要涉及到等等，如果你正在学习科技周边，或者是对科技周边有疑问，欢迎大家关注我！后面我会持续更新相关内容的，希望都能帮到正在学习的大家！

最近一段时间，AI 作画可谓是火的一塌糊涂。

在你惊叹 AI 绘画能力的同时，可能还不知道的是，扩散模型在其中起了大作用。就拿热门模型 OpenAI 的 DALL·E 2 来说，只需输入简单的文本（prompt），它就可以生成多张 1024*1024 的高清图像。

在 DALL·E 2 公布没多久，谷歌随后发布了 Imagen，这是一个文本到图像的 AI 模型，它能够通过给定的文本描述生成该场景下逼真的图像。

就在前几天，Stability.Ai 公开发布文本生成图像模型 Stable Diffusion 的最新版本，其生成的图像达到商用级别。

自 2020 年谷歌发布 DDPM 以来，扩散模型就逐渐成为生成领域的一个新热点。之后 OpenAI 推出 GLIDE、ADM-G 模型等，都让扩散模型火出圈。

很多研究者认为，基于扩散模型的文本图像生成模型不但参数量小，生成的图像质量却更高，大有要取代 GAN 的势头。

不过，扩散模型背后的数学公式让许多研究者望而却步，众多研究者认为，其比 VAE、GAN 要难理解得多。

近日，来自 Google Research 的研究者撰文《 Understanding Diffusion Models: A Unified Perspective 》，本文以极其详细的方式展示了扩散模型背后的数学原理，目的是让其他研究者可以跟随并了解扩散模型是什么以及它们是如何工作的。

论文地址：https://arxiv.org/pdf/2208.11970.pdf至于这篇论文有多「数学」，论文作者是这样描述的：我们以及其令人痛苦的细节（excruciating detail）展示了这些模型背后的数学。

论文共分为 6 部分，主要包括生成模型；ELBO、VAE 和分级 VAE；变分扩散模型；基于分数的生成模型等。

以下摘取了论文部分内容进行介绍：

生成模型

给定分布中的观察样本 x，生成模型的目标是学习为其真实数据分布 p(x) 进行建模。模型学习完之后，我们就可以生成新的样本。此外，在某些形式下，我们也可以使用学习模型来进行评估观察或对数据进行采样。

当前研究文献中，有几个重要方向，本文只在高层次上简要介绍，主要包括：GAN，其对复杂分布的采样过程进行建模，该过程以对抗方式学习。生成模型，我们也可称之为「基于似然，likelihood-based」的方法，这类模型可以将高似然分配给观察到的数据样本，通常包括自回归、归一化流、VAE。基于能量的建模，在这种方法中，分布被学习为任意灵活的能量函数，然后被归一化。在基于分数的生成模型中，其没有学习对能量函数本身进行建模，而是将基于能量模型的分数学习为神经网络。

在这项研究中，本文探索和回顾了扩散模型，正如文中展示的那样，它们具有基于可能性和基于分数的解释。