当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 苹果“套娃”式扩散模型，训练步数减少七成！

苹果“套娃”式扩散模型，训练步数减少七成！

来源：51CTO.COM 2023-10-25 21:17:21 0浏览收藏

大家好，今天本人给大家带来文章《苹果“套娃”式扩散模型，训练步数减少七成！》，文中内容主要涉及到，如果你对科技周边方面的知识点感兴趣，那就请各位朋友继续看下去吧~希望能真正帮到你们，谢谢！

苹果的一项最新研究，大幅提高了扩散模型在高分辨率图像上性能。

利用这种方法，同样分辨率的图像，训练步数减少了超过七成。

在1024×1024的分辨率下，图片画质直接拉满，细节都清晰可见。

苹果“套娃”式扩散模型，训练步数减少七成！

苹果把这项成果命名为MDM，DM就是扩散模型（Diffusion Model）的缩写，而第一个M则代表了套娃（Matryoshka）。

就像真的套娃一样，MDM在高分辨率过程中嵌套了低分辨率过程，而且是多层嵌套。

高低分辨率扩散过程同时进行，极大降低了传统扩散模型在高分辨率过程中的资源消耗。

苹果“套娃”式扩散模型，训练步数减少七成！

对于256×256分辨率的图像，在批大小（batch size）为1024的环境下，传统扩散模型需要训练150万步，而MDM仅需39万，减少了超七成。

另外，MDM采用了端到端训练，不依赖特定数据集和预训练模型，在提速的同时依然保证了生成质量，而且使用灵活。

苹果“套娃”式扩散模型，训练步数减少七成！

不仅可以画出高分辨率的图像，还能合成16×256²的视频。

苹果“套娃”式扩散模型，训练步数减少七成！

有网友评论到，苹果终于把文本连接到图像中了。

苹果“套娃”式扩散模型，训练步数减少七成！

那么，MDM的“套娃”技术，具体是怎么做的呢？

整体与渐进相结合

苹果“套娃”式扩散模型，训练步数减少七成！

在开始训练之前，需要将数据进行预处理，高分辨率的图像会用一定算法重新采样，得到不同分辨率的版本。

然后就是利用这些不同分辨率的数据进行联合UNet建模，小UNet处理低分辨率，并嵌套进处理高分辨率的大UNet。

通过跨分辨率的连接，不同大小的UNet之间可以共用特征和参数。

苹果“套娃”式扩散模型，训练步数减少七成！

MDM的训练则是一个循序渐进的过程。

虽然建模是联合进行的，但训练过程并不会一开始就针对高分辨率进行，而是从低分辨率开始逐步扩大。

这样做可以避免庞大的运算量，还可以让低分辨率UNet的预训练可以加速高分辨率训练过程。

训练过程中会逐步将更高分辨率的训练数据加入总体过程中，让模型适应渐进增长的分辨率，平滑过渡到最终的高分辨率过程。

苹果“套娃”式扩散模型，训练步数减少七成！

不过从整体上看，在高分辨率过程逐步加入之后，MDM的训练依旧是端到端的联合过程。

在不同分辨率的联合训练当中，多个分辨率上的损失函数一起参与参数更新，避免了多阶段训练带来的误差累积。

每个分辨率都有对应的数据项的重建损失，不同分辨率的损失被加权合并，其中为保证生成质量，低分辨率损失权重较大。

在推理阶段，MDM采用的同样是并行与渐进相结合的策略。

此外，MDM利还采用了预训练的图像分类模型（CFG）来引导生成样本向更合理的方向优化，并为低分辨率的样本添加噪声,使其更贴近高分辨率样本的分布。

那么，MDM的效果究竟如何呢？

更少参数匹敌SOTA

图像方面，在ImageNet和CC12M数据集上，MDM的FID（数值越低效果越好）和CLIP表现都显著优于普通扩散模型。

其中FID用于评价图像本身的质量，CLIP则说明了图像和文本指令之间的匹配程度。

苹果“套娃”式扩散模型，训练步数减少七成！

和DALL E、IMAGEN等SOTA模型相比，MDM的表现也很接近，但MDM的训练参数远少于这些模型。

苹果“套娃”式扩散模型，训练步数减少七成！

不仅是优于普通扩散模型，MDM的表现也超过了其他级联扩散模型。

苹果“套娃”式扩散模型，训练步数减少七成！

消融实验结果表明，低分辨率训练的步数越多，MDM效果增强就越明显；另一方面，嵌套层级越多，取得相同的CLIP得分需要的训练步数就越少。

苹果“套娃”式扩散模型，训练步数减少七成！

而关于CFG参数的选择，则是一个多次测试后再FID和CLIP之间权衡的结果（CLIP得分高相对于CFG强度增大）。

苹果“套娃”式扩散模型，训练步数减少七成！

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

模型训练

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

RISC-V 领军企业 SiFive 大裁员：20% 员工被裁，大部分是工程师

RISC-V 领军企业 SiFive 大裁员：20% 员工被裁，大部分是工程师

上一篇: RISC-V 领军企业 SiFive 大裁员：20% 员工被裁，大部分是工程师

LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

下一篇: LeCun又双叒唱衰自回归LLM：GPT-4的推理能力非常有限，有两篇论文为证

查看更多

最新文章

科技周边 · 人工智能 | 6小时前 |

豆包AI设计技巧：快速构建交互流程方法

420浏览收藏
科技周边 · 人工智能 | 6小时前 | AI工具学习方法效率提升实践应用新手入门

新手必看！AI工具使用入门指南

143浏览收藏
科技周边 · 人工智能 | 7小时前 | 数据获取 360智图阶梯分佣规则定义外部计算

360智图阶梯分佣设置教程详解

304浏览收藏
科技周边 · 人工智能 | 7小时前 | 效率自定义表单大师 AI模板推荐 AI生成表单

表单大师AI模板推荐及使用教程

114浏览收藏
科技周边 · 人工智能 | 7小时前 | 备忘录实用技巧自然语言理解 Kimi 智能提醒

Kimi智能提醒怎么用？备忘录使用教程

405浏览收藏
科技周边 · 人工智能 | 7小时前 | 转化率绘蛙AI修图课程海报教育变现设计痛点

绘蛙AI修图课程海报设计技巧，提升教育变现效果

338浏览收藏
科技周边 · 人工智能 | 7小时前 |

ChatGPT联动DALL·E教程图文攻略

274浏览收藏
科技周边 · 人工智能 | 7小时前 |

Keras神经网络教程：快速建模入门指南

449浏览收藏
科技周边 · 人工智能 | 8小时前 |

AIOverviews怎么开启？各平台教程详解

181浏览收藏
科技周边 · 人工智能 | 8小时前 |

即梦AI动态背景添加教程场景切换全攻略

238浏览收藏
科技周边 · 人工智能 | 8小时前 | AI工具文本生成音频处理图像生成代码生成

2025年必用AI工具全面推荐

464浏览收藏
科技周边 · 人工智能 | 8小时前 |

豆包AI编程教程代码实战指南

190浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

542次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

511次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

498次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

484次学习

查看更多

AI推荐

千音漫语

千音漫语，北京熠声科技倾力打造的智能声音创作助手，提供AI配音、音视频翻译、语音识别、声音克隆等强大功能，助力有声书制作、视频创作、教育培训等领域，官网：https://qianyin123.com

202次使用
MiniWork

MiniWork是一款智能高效的AI工具平台，专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具，提供精准智能解决方案，让复杂工作简单高效。

206次使用
NoCode

NoCode (nocode.cn)是领先的无代码开发平台，通过拖放、AI对话等简单操作，助您快速创建各类应用、网站与管理系统。无需编程知识，轻松实现个人生活、商业经营、企业管理多场景需求，大幅降低开发门槛，高效低成本。

202次使用
达医智影

达医智影，阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”，仅一次CT扫描即可高效识别多种癌症、急症及慢病，为疾病早期发现提供智能、精准的AI影像早筛解决方案。

209次使用
智慧芽Eureka

智慧芽Eureka，专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景，通过专家级AI Agent精准执行任务，智能化工作流解放70%生产力，让您专注核心创新。

227次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码