当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出自动匹配排名系统

来源：51CTO.COM 2023-04-17 19:34:11 0浏览收藏

1 基于内容的模型搜索

和传统的多媒体搜索一样，模型搜索能够帮助用户找到最适合其特定需求的模型。但基于内容的模型搜索任务有其特殊难点：

判断模型是否可以生成特定图像，这是一个比较难计算的问题，而且很多深度生成模型并没有提供有效方法来估计密度，其本身也不支持评估跨模态相似性。而蒙特卡洛这种基于抽样的方法又会使模型搜索过程变得非常缓慢。

为此，朱俊彦团队提出了一种新的模型搜索系统。

每个生成模型都会产生一个图像分布，所以作者将搜索问题处理为优化，以最大化在给定模型的情况下生成与查询匹配的概率。如下图所示，该系统由预缓存阶段（a，b）和推理阶段（c）组成。

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

图注：模型搜索方法概览

给定一组模型，（a）首先为每个模型生成 50K 样本；(b) 然后将图像编码为图像特征并计算每个模型的一阶和二阶特征统计。统计数据缓存在系统中以提高效率；(c) 在推理阶段，支持不同模态的查询，包括图像、草图、文本描述、另一个生成模型或这些查询类型的组合。作者在这里引入近似值，查询被编码为特征向量，通过评估查询特征与每个模型统计数据之间的相似性，来检索具有最佳相似性度量的模型。

2 模型搜索效果

作者对算法进行评估，对 133 个深度生成模型（包括 GAN、扩散模型和自回归模型）进行了消融实验分析。与蒙特卡洛基线相比，该方法可以实现更高效的搜索，速度在 0.08 毫秒内，提升 5 倍，同时还能保持高精度。

通过对比模型检索结果，我们也可以大致了解针对不同查询输入，哪些模型能生成质量更高的图像。比如下图展示了模型检索的结果对比。

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统

图注：模型检索结果示例

最上面一行是图像查询，输入静物画，检索相关艺术风格的模型，得到排名第一的 StyleGAN2 模型和排名最后的 Vision-aided GAN 模型。中间行是草图查询，输入马和教堂的草图，得到 ADM、ProGAN 等模型。最下面一行是文本查询，输入“戴眼镜的人”和“说话的鸟”，分别检索得出排名第一的 GANSketch 模型和 Self-Distilled GAN 模型。

作者还发现，不同网络特征空间的模型性能存在差异。如下图所示，在输入图像查询时，结果显示三个网络 CLIP、DINO 和 Inception 都具有相似的性能；而在输入草图查询时，CLIP 效果明显更好，而 DINO 和 Inception 则不太适合给定查询，它们在艺术风格的模型上表现更好。

AI 生成模型五花八门，谁好谁坏？CMU 朱俊彦团队推出首个自动匹配排名系统