当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜

李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜

来源：51CTO.COM 2023-04-25 14:35:09 0浏览收藏

“纵有疾风来，人生不言弃”，这句话送给正在学习科技周边的朋友们，也希望在阅读本文《李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜》后，能够真的帮助到大家。我也会在后续的文章中，陆续更新科技周边相关的技术文章，有好的建议欢迎大家在评论留言，非常感谢！

人工智能的爆炸正在扭曲我们的时间感。

你能相信Stable Diffusion只有4个月大，而ChatGPT的出现还不到一个月吗？

打个形象的比喻，只要眨一下眼，你就会错过一个全新的行业。

2022年的AI领域，大规模的生成模型像雨后春笋一样地冒出，改变了整个AI界的格局。

而且，这些模型正在迅速走出实验室，在现实中被应用。

比如，LLM技术就启发了两个新兴的领域——决策代理（游戏、机器人等等）和 AI4Science。

李飞飞高徒Jim Fan为我们总结了2022年的十大AI高光时刻。让我们把时间倒转，看看2022年都有哪些令人惊叹的AI突破。

一、文字-图像生成

DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。

它启动了AI的艺术革命，催生了许多新的应用程序、初创公司和思维方式。

但 DALLE-2被保护在OpenAI的围墙后面，并没有开源。

在OpenAI之后，LMU的StabilityAI和runwayml迈出了英勇的一步，基于「潜在扩散」算法训练了他们自己的互联网规模的text2image模型。他们称该模型为「稳定扩散」，并开源了代码和权值（weighs）。

事实证明，Stable Diffusion的开放性，让它给游戏带来了巨变。

现在，许多初创公司和研究实验室都在Stable Diffusion的基础上创建新的应用程序，Stable Diffusion本身也被开源社区不断改进。

最近，Stable Diffusion已经达到了v2.1版本，可以在单个GPU上运行了。

另外，今年还有来自GoogleAI的两个image2text模型。GoogleAI既没有发布模型也没有发布API，但从论文中，我们仍然可以看到不少有趣的见解。

Imagen

https://imagen.research.google

Parti

https://parti.research.google。它是一个没有diffusion的Transformer模型。

二、文字-文字生成

大家都知道，我说的是ChatGPT!

这是历史上唯一一个在5天内就获得了100万用户的应用程序。

ChatGPT也大大启发了我们人类的创造力。

在这个列表中，可以看到所有有用的和有想象力的关于ChatGPT想法：https://github.com/f/awesome-chat

ChatGPT和GPT-3.5都使用了一种叫做RLHF（「从人类反馈中强化学习」）的新技术。

这也就意味着，提示工程或许很快就会消失了。

ChatGPT的流行，已经催生了一波新的创业公司和竞争者，比如Jasper Chat、YouChat、Replit的Ghostwriter chat，以及perplexity_ai。

这些竞争者提供了如此直观的搜索方式，连谷歌的高管们都开始出汗了!

三、文本- 机器人模型

如何给GPT提供胳膊和腿，让它们能打扫你混乱的厨房？

与NLP不同，机器人模型需要与物理世界互动。

在今年，大的预训练Transformer终于开始解决机器人领域最难的问题了!

VIMA

10月，我和同事创建了一个「机器人GPT 」——名为VIMA的tranformer。

它可以接收任何混合的文本、图像和视频作为prompt，并输出机器人手臂的控制。

我们的模型被称为VIMA（「VisuoMotor Attention」），已经完全开源了。

现在，单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等，具有了模型容量和数据的强大扩展性。

RT-1

沿着与VIMA类似的路径，来自GoogleAI的研究人员发布了RT-1，这是一种在700项任务和130K的人类演示上训练的机器人transformer。

这些数据是由13个机器人在17个月内收集的，是字面意义上的钢铁部队！

四、文本 - 视频

本质上说，视频就是随着时间的推移捆绑在一起的一系列图像，给我们创造了运动的错觉。

如果我们可以做text2image，那为什么不在里面加上时间轴，来获得额外的乐趣呢？

目前，文本 - 视频领域有3个重大的工作，但没有一个是开源的。

Make-A-Video

首先是Meta AI的Make-A-Video：不需要成对的文本-视频数据，就可以得到文本-视频的生成。

您可以在此处注册试用访问权限：https://makeavevideo.studio

论文链接：https://arxiv.org/abs/2209.14792

Imagen Video

Google AI的Imagen Video：它能使用扩散模型生成高清视频，基于Imagen静态图像生成器。

演示：http://imagen.research.google/video/

论文链接：https://arxiv.org/abs/2210.02303

Phenaki

来自谷歌AI的Phenaki: 从开放领域的文本描述中生成可变长度的视频。

演示：https://phenaki.video

论文链接：https://arxiv.org/abs/2210.02399

五、文本-3D建模

从设计创新产品到在电影和游戏中创造奇妙的视觉效果，3D建模正成为文本-X生成模型的下一片蓝海。

令人惊喜的是，2022年出现了许多卓有前途的3D生成模型。在此，Fan列举了3个模型。

DreamFusion

首先登场的，是Google AI研究团队与UC Berkeley联合开发的DreamFusion。

论文链接：https://arxiv.org/pdf/2209.14988.pdf

该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。

基于NeRF算法，DreamFusion可以通过给定文本生成3D模型。

该模型可以从任何角度查看，在任意照明下可以重新点亮，还可以合成到任何三维环境当中。

Magic3D

第二项成果，是英伟达AI团队的两个项目，名为GET3D和Magic3D。

GET3D论文链接：https://nv-tlabs.github.io/GET3D/assets/paper.pdf

Magic3D论文链接：https://arxiv.org/pdf/2211.10440.pdf

GET3D仅使用二维图像进行训练，可生成具有高保真纹理和复杂几何细节的三维图形。

该模型允许用户立即将其形体导入3D渲染器和游戏引擎，以便进行后续编辑。

Magic3D与DreamFusion类似，使用文本到图像模型生成2D图像，然后优化为体积NeRF（神经辐射场）数据，将低分辨率生成的粗略模型优化为高分辨率的精细模型。

根据英伟达AI团队，由此产生的Magic3D方法，可以比DreamFusion更快地生成3D目标。

Point-E

继年初推出的DALL-E 2用天才画笔惊艳所有人之后，周二OpenAI发布了最新的图像生成模型「POINT-E」，它可通过文本直接生成3D模型。

论文链接：https://arxiv.org/pdf/2212.08751.pdf

相比竞争对手们（如谷歌的DreamFusion）需要几个GPU工作数个小时，POINT-E只需单个GPU便可在几分钟内生成3D图像。

根据测试，Prompt输入后POINT-E基本可以秒出3D图像，此外输出图像还支持自定义编辑、保存等功能。

六、会玩《我的世界》的AI

《我的世界》是一款测试AI通用智能的绝佳游戏。首先，它是一款无限开放的沙盒游戏，极度体现玩家的创造力。

其次，该游戏有1.4亿的玩家群体，是英国总人口的两倍。用户基础如此庞大，供AI学习的游戏数据可谓是源源不绝。

那么，AI能否和人类一样尽情挥洒想象力呢？

Jim Fan和同事合作开发了第一个玩《我的世界》的AI「MineDojo」，它可以在自然语言提示下解决许多任务。

论文链接：https://arxiv.org/pdf/2206.08853.pdf

Fan的最终目标是建立一个「具身的ChatGPT」。目前，MineDojo平台已经完全开源。

与此同时，Jeff Clune的团队宣布了一个名为视频预训练（VPT）的模型，该模型可以直接输出键盘和鼠标的动作。

论文链接：https://arxiv.org/pdf/2206.11795.pdf

VPT拥有更广阔的视野，但不受语言条件的限制。在这点上，MineDojo和VPT恰好相辅相成。

七、AI外交官

Meta AI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。

论文链接：https://www.science.org/doi/10.1126/science.ade9097

《外交》是一款七人制经典策略游戏，可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合。该游戏需要广泛的自然语言协商才能与人类合作和竞争。

然而，CICERO的出现表明，人工智能现在已经有说服他人和虚张声势的能力。

目前，DeepMind也宣布开发自己的外交官AI智能体。那么，如果CICERO使用这个AI模型，又会发生什么呢？

八、音频-文本模型

Whisper是OpenAI发布的一个大型开源语音识别模型，在英语语音识别方面有接近人类水平的鲁棒性和准确性。

论文链接：https://arxiv.org/pdf/2212.04356.pdf

Whisper经过了来自网络的680，000小时音频数据的训练。Open AI强调，Whisper的语音识别能力已达到人类水准。

Open AI将Whisper开源，是否是为了解锁更多文本token，用以训练万众瞩目的GPT-4呢？

九、核聚变

DeepMind与瑞士洛桑联邦理工学院（EPFL）联合开发了第一个核聚变相关的深度强化学习系统，可以保持核聚变等离子体在托卡马克内的稳定。

论文链接：https://www.nature.com/articles/s41586-021-04301-9

同样在本月，美国能源部宣布了一项巨大的突破：人类首次实现了核聚变反应的净能量增益！

这是人类首次实现这一里程碑。这一生，我们或许会成为聚变文明！

十、应用于生物学的Transformer

2021年，AlphaFold开启了语言模型预测蛋白质3D结构的序幕。

7月，DeepMind宣布了「蛋白质宇宙」——将AlphaFold的蛋白质数据库扩展到2亿个结构！

此外，英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架，以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。

视频讲解：https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

以上便是Jim Fan对2022年十大AI亮点的盘点。当然，Fan也表示，还有无数令人兴奋的作品为人工智能的进步做出了贡献。

每篇论文都是AI大厦里的一砖一瓦，所有的努力都应该庆祝。

不过，Fan在最后也强调，随着人工智能系统变得越来越强大，我们必须意识到潜在的危险和风险，并采取措施减轻它们。

无论是通过仔细的培训设计、适当的监督还是全新的保障方法，人工智能的安全与伦理成为越来越的AI专家所讨论的议程。

毫无疑问，2022年是充满奇迹的一年，也是令人惊叹的一年。未来一年又会有什么震惊世界的突破？我们与你一起关注。

参考资料：

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw

今天关于《李飞飞高徒盘点年度十大AI亮点：核聚变、ChatGPT、AlphaFold上榜》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于ChatGPT,AI,AlphaFold的内容请关注golang学习网公众号！

ChatGPT AI

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

如何在 Windows 11 上使用设备加密

如何在 Windows 11 上使用设备加密

上一篇: 如何在 Windows 11 上使用设备加密

第一批 Mac Studio 和 Studio Display 订单到达世界各地的客户手中

下一篇: 第一批 Mac Studio 和 Studio Display 订单到达世界各地的客户手中

评论列表

端庄的大炮

太给力了，一直没懂这个问题，但其实工作中常常有遇到...不过今天到这，看完之后很有帮助，总算是懂了，感谢up主分享技术文章！

2023-06-02 04:15:17
狂野的寒风

这篇博文出现的刚刚好，太细致了，受益颇多，已收藏，关注楼主了！希望楼主能多写科技周边相关的文章。

2023-04-29 02:00:30

查看更多

最新文章

科技周边 · 人工智能 | 14小时前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427浏览收藏
科技周边 · 人工智能 | 19小时前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154浏览收藏
科技周边 · 人工智能 | 1天前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

3271次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

3021次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2971次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

3178次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

3135次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码