当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

来源：51CTO.COM 2023-12-14 20:10:50 0浏览收藏

对于一个科技周边开发者来说，牢固扎实的基础是十分重要的，golang学习网就来带大家一点点的掌握基础知识点。今天本篇文章带大家了解《新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破》，主要介绍了，希望对大家的知识积累有所帮助，快点收藏起来吧，否则需要时就找不到了！

大佬何恺明还未正式入职MIT，但和MIT的第一篇合作研究已经出来了：

他和MIT师生一起开发了一个自条件图像生成框架，名叫RCG（代码已开源）。

这个框架结构非常简单但效果拔群，直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

它生成的图像不需要任何人类注释（也就是提示词、类标签什么的），就能做到既保真又具有多样性。

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

这样的它不仅显著提高了无条件图像生成的水平，还能跟当前最好的条件生成方法一较高下。

用何恺明团队自己的话来说：

有条件和无条件生成任务之间长期存在的性能差距，终于在这一刻被弥补了。

那么，它究竟是如何做到的呢？

类似自监督学习的自条件生成

首先，所谓无条件生成，就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。

这种训练方式很困难，因此一直与条件生成存在很大的性能差距——就像无监督学习无法与监督学习相比

正如自我监督学习的出现一样，它也改变了这种情况

在无条件图像生成领域，也有一个类似于自监督学习概念的自条件生成方法。

相比传统的无条件生成简单地将噪声分布映射到图像分布，这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上。

它有望超越条件图像生成，并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展（这也是为什么条件生成图像发展得这么好，我们还要重视无条件生成）。

现在，基于这个自条件生成概念，何恺明团队首先开发了一个表示扩散模型RDM。

通过自监督图像编码器从图像中截取，主要用于生成低维自监督图像表示

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

它的核心架构如下：

首先是输入层，它负责将表征投射到隐藏维度C，接着是N个全连接块，最后是一个输出层，负责把隐藏层的潜在特征重新投射（转换）到原始表征维度。

其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

这样的RDM具有两个优点：

它的特点之一是具有很强的多样性，另一个特点是计算开销很小

在此之后，团队借助RDM提出了今天的主角：表示条件图像生成架构RCG

它是一个简单的自条件生成框架，由三个组件组成：

一个是SSL图像编码器，用于将图像分布转换为紧凑的表示分布。

一个是RDM，用于对该分布进行建模和采样。

最后是一个像素生成器MAGE，用于根据表示来处理图像像。

MAGE的工作方式是在token化的图像中添加随机掩码，并要求网络以从同一图像中提取的表示为条件来重建丢失的token

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

经过测试发现，最终结果显示，尽管这个自条件生成框架的结构简单，但其效果非常出色

在ImageNet 256×256上，RCG实现了3.56的FID和186.9的IS（Inception Score）得分。

相比之下，在它之前最厉害的无条件生成方法FID分数为7.04，IS得分为123.5。

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

对于RCG来说，它不仅在条件生成方面表现出色，而且在与该领域基准模型相比时，它的水平相当甚至超过

最后，在无分类器引导的情况下，RCG的成绩还能进一步提高到3.31（FID）和253.4（IS）。

团队表达了：

这些结果显示，条件图像生成模型具有巨大的潜力，可能预示着这一领域的新时代即将到来

团队介绍

本文一共三位作者：

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

一作是MIT博士生黎天鸿，本科毕业于清华姚班，研究方向为跨模态集成传感技术。

他的个人主页非常有趣，还专门放了一个菜谱合集——研究和烹饪是他最热衷的两件事情

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

另一位作者是MIT电气工程与计算机科学系（EECS）教授、MIT无线网络和移动计算中心主任Dina Katabi，她是今年斯隆奖的获得者，并已当选美国国家科学院院士。

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

最后，通讯作者为何恺明，他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系，与Dina Katabi成为同事。

新标题：何恺明与MIT合作：简单框架实现无条件图像生成的最新突破

请点击以下链接查看论文：https://arxiv.org/abs/2312.03701

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

模型训练

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

影响GenAI有效性的关键问题

影响GenAI有效性的关键问题

上一篇: 影响GenAI有效性的关键问题

11个基本分布，数据科学家95%的时间都在使用

下一篇: 11个基本分布，数据科学家95%的时间都在使用

查看更多

最新文章

科技周边 · 人工智能 | 1分钟前 | Shutterstock

手绘风图片怎么找？Shutterstock教程

427浏览收藏
科技周边 · 人工智能 | 4分钟前 | 豆包AI

豆包AI能做问答机器人？搭建方法来了

105浏览收藏
科技周边 · 人工智能 | 50分钟前 | 即梦AI 即梦4.0

即梦4.0多语言设置方法详解

269浏览收藏
科技周边 · 人工智能 | 1小时前 |

ClaudePro官网入口与订阅教程

192浏览收藏
科技周边 · 人工智能 | 1小时前 |

DeepArtAI渐变色发灰怎么调？

370浏览收藏
科技周边 · 人工智能 | 1小时前 |

Claude年终复盘怎么写？方法全解析

239浏览收藏
科技周边 · 人工智能 | 1小时前 | 讯飞星火多轮提示

讯飞星火多轮提示使用方法详解

345浏览收藏
科技周边 · 人工智能 | 2小时前 |

免费AI聊天网站有哪些？

149浏览收藏
科技周边 · 人工智能 | 2小时前 |

DeepSeek代码协议与商用注意事项

184浏览收藏
科技周边 · 人工智能 | 2小时前 |

AI市场调研与竞品分析全攻略

131浏览收藏
科技周边 · 人工智能 | 2小时前 |

AI制作GIF表情包教程技巧

121浏览收藏
科技周边 · 人工智能 | 2小时前 |

去哪旅行AI抢票助手设置通道方法

247浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

4015次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

4352次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

4230次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

5528次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

4598次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码