2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推
珍惜时间,勤奋学习!今天给大家带来《2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推》,正文内容主要涉及到等等,如果你正在学习科技周边,或者是对科技周边有疑问,欢迎大家关注我!后面我会持续更新相关内容的,希望都能帮到正在学习的大家!
2022 年即将步入尾声。在这一年里,机器学习领域涌现出了大量有价值的论文,对机器学习社区产生了深远的影响。
今日,ML & NLP 研究者、Meta AI 技术产品营销经理、DAIR.AI 创始人 Elvis S. 对 2022 年热度很高的 12 篇机器学习论文进行了汇总。帖子很火,还得到了图灵奖得主 Yann LeCun 的转推。
接下来,我们一一来看。
论文 1:A ConvNet for the 2020s
视觉识别的快速发展始于 ViT 的引入,其很快取代了传统 ConvNet,成为 SOTA 图像分类模型。ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此有研究者提出分层 Swin Transformer,重新引入 ConvNet 先验,使得 Transformer 作为通用视觉主干实际上可行,并在各种视觉任务上表现出卓越的性能。
然而,这种混合方法的有效性在很大程度上仍归功于 Transformer 的内在优势,而不是卷积固有的归纳偏置。本文中,FAIR 、UC 伯克利的研究者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限。研究者逐渐将标准 ResNet「升级」为视觉 Transformer 的设计,并在此过程中发现了导致性能差异的几个关键组件。
论文地址:https://arxiv.org/abs/2201.03545v2
论文 2:Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents
通过大型语言模型(LLM)学习的世界知识能能用于交互式环境中的行动吗?本文中,UC 伯克利、CMU 和谷歌的研究者探究了将自然语言表达为一组选定可操作步骤的可能性。以往的工作侧重于从显式分布示例中学习如何行动,但他们惊讶地发现,如果预训练语言模型足够大并得到适当的提示,则可以有效地将高级任务分解为中级规划,无需进一步训练。但是,LLM 制定的规划往往无法精确地映射到可接受的行动。
研究者提出的步骤以现有演示为条件,并将规划在语义上转换为可接受的行动。在 VirtualHome 环境中的评估表明,他们提出的方法大大提高了 LLM 基线的可执行性。人工评估揭示了可执行性和正确性之间的权衡,但展现出了从语言模型中提取可操作知识的可能性迹象。
论文地址:https://arxiv.org/abs/2201.07207v2
论文 3:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework
这是阿里达摩院推出的统一多模态多任务模型框架 OFA,总结了通用模型现阶段最好符合的三个特点,即模态无关、任务无关、任务多样性。该论文被 ICML 2022 接收。
在图文领域,OFA 将 visual grounding、VQA、image caption、image classification、text2image generation、language modeling 等经典任务通过统一的 seq2seq 框架进行表示,在任务间共享不同模态的输入输出,并且让 Finetune 和预训练保持一致,不新增额外的参数结构。
论文地址:https://arxiv.org/abs/2202.03052v2
论文 4:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
深度学习中的超参数(HP)调优是一个成本高昂的过程,对于具有数十亿参数的神经网络而言更是如此。本文中,微软和 OpenAI 的研究者表明,在最近发现的 Maximal Update Parametrization(muP)中,即使模型大小发生变化,很多最优 HP 仍保持稳定。
这促成了他们称为 muTransfer 的全新 HP 调优范式,即在 muP 中对目标模型进行参数化,在较小的模型上不直接进行 HP 调优,并将它们零样本迁移到全尺寸模型中,这也意味着根本不需要直接对后者模型进行调优。研究者在 Transformer 和 ResNet 上验证了 muTransfer。例如,通过从 40M 参数的模型进行迁移,性能优于已发布的 6.7B GPT-3 模型,调优成本仅为预训练总成本的 7%。
论文地址:https://arxiv.org/abs/2203.03466v2
论文 5:OPT: Open Pre-trained Transformer Language Models
大模型往往经过成千上万个计算日的训练,在零样本和少样本学习中展现出了非凡的能力。不过考虑到它们的计算成本,如果没有充足的资金,这些大模型很难复制。对于少数可以通过 API 获得的模型,无法访问它们完整的模型权重,也就难以展开研究。
本文中,Meta AI 的研究者提出了 Open Pre-trained Transformers(OPT),这是一套仅用于解码器的预训练 transformers 模型,参数从 125M 到 175B 不等。他们表明,OPT-175B 性能与 GPT-3 相当,但开发所需的碳足迹仅为后者的 1/7。
论文地址:https://arxiv.org/abs/2205.01068v4
论文 6:A Generalist Agent
受大规模语言建模的启发,Deepmind 构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。
Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。
与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。
论文地址:https://arxiv.org/abs/2205.06175v3
论文 7:Solving Quantitative Reasoning Problems with Language Models
来自谷歌的研究者提出了一种叫作 Minerva 的深度学习语言模型,可以通过逐步推理解决数学定量问题。其解决方案包括数值计算、符号操作,而不需要依赖计算器等外部工具。
此外,Minerva 还结合了多种技术,包括小样本提示、思维链、暂存器提示以及多数投票原则,从而在 STEM 推理任务上实现 SOTA 性能。
Minerva 建立在 PaLM(Pathways Language Model ) 的基础上,在 118GB 数据集上进一步训练完成,数据集来自 arXiv 上关于科技方面的论文以及包含使用 LaTeX、MathJax 或其他数学表达式的网页的数据进行进一步训练。
下图为 Minerva 解决问题示例展示:
论文地址:https://arxiv.org/abs/2206.14858
论文 8:No Language Left Behind: Scaling Human-Centered Machine Translation
来自 Meta AI 的研究者发布了翻译模型 NLLB(No Language Left behind ),直译为「一个语言都不能少」,其可以支持 200 + 语言之间的任意互译,除了中英法日等常用语种翻译外,NLLB 还能对包括卢干达语、乌尔都语等在内的许多小众语言进行翻译。
Meta 宣称,这是全球第一个以单一模型对应多数语言翻译的设计,他们希望借此能够帮助更多人在社群平台上进行跨语言互动,同时提高用户在未来元宇宙中的互动体验。
论文地址:https://arxiv.org/abs/2207.04672v3
论文 9:High-Resolution Image Synthesis with Latent Diffusion Models
最近一段时间 Stable Diffusion 火爆出圈,围绕这一技术展开的研究数不胜数。
该研究是来自慕尼黑大学和 Runway 的研究者基于其 CVPR 2022 的论文《High-Resolution Image Synthesis with Latent Diffusion Models》,并与 Eleuther AI、LAION 等团队合作完成。Stable Diffusion 可以在消费级 GPU 上 10 GB VRAM 下运行,并在几秒钟内生成 512x512 像素的图像,无需预处理和后处理。
时间仅过去四个月,该开源项目已收获 38K 星。
项目地址:https://github.com/CompVis/stable-diffusion
Stable Diffusion 生成图像示例展示:
论文 10:Robust Speech Recognition via Large-Scale Weak Supervision
OpenAI 发布开源模型 Whisper,在英语语音识别方面接近人类水平,并具有较高的准确性。
Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的 98 种语言和多任务监督数据对 Whisper 进行了训练。除了可以用于语音识别,Whisper 还能实现多种语言转录,以及将这些语言翻译成英语。
论文地址:https://arxiv.org/abs/2212.04356
论文 11:Make-A-Video: Text-to-Video Generation without Text-Video Data
来自 Meta AI 的研究者提出了一种最先进的文本到视频模型:Make-A-Video,可以将给定的文本提示生成视频。
Make-A-Video 有三个优点:(1)它加速了 T2V(Text-to-Video)模型的训练,不需要从头开始学习视觉和多模态表示,(2)它不需要配对的文本 - 视频数据,(3)生成的视频继承了当今图像生成模型的多项优点。
该技术旨在实现文本到视频生成,仅用几个单词或几行文本就能生成独一无二的视频。如下图为一只狗穿着超级英雄的衣服,披着红色的斗篷,在天空中飞翔:
论文地址:https://arxiv.org/abs/2209.14792
论文 12:Galactica: A Large Language Model for Science
近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。
最近,Meta AI 的研究团队提出了一种新的大型语言模型 Galactica,可以存储、组合和推理科学知识。Galactica 可以自己总结归纳出一篇综述论文、生成词条的百科查询、对所提问题作出知识性的回答。
论文地址:https://arxiv.org/abs/2211.09085
本篇关于《2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- 视网膜图像分类的深度集成学习算法

- 下一篇
- PathAI利用机器学习推动药物开发
-
- 自由的棉花糖
- 很有用,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢作者分享文章内容!
- 2023-05-11 17:40:05
-
- 安详的西牛
- 这篇技术贴太及时了,up主加油!
- 2023-04-29 08:28:16
-
- 妩媚的砖头
- 很详细,码起来,感谢楼主的这篇技术文章,我会继续支持!
- 2023-04-25 08:09:29
-
- 震动的诺言
- 这篇技术文章真是及时雨啊,好细啊,太给力了,码起来,关注博主了!希望博主能多写科技周边相关的文章。
- 2023-04-20 07:46:50
-
- 科技周边 · 人工智能 | 1分钟前 |
- 拼多多商家必备:DeepSeek话术生成教程
- 321浏览 收藏
-
- 科技周边 · 人工智能 | 4分钟前 |
- 即梦AI添加时间戳教程日期水印设置方法
- 344浏览 收藏
-
- 科技周边 · 人工智能 | 8分钟前 |
- 豆包AI代码生成技巧全解析
- 277浏览 收藏
-
- 科技周边 · 人工智能 | 20分钟前 | Python 正则匹配
- 豆包AI如何处理Python正则匹配解析
- 200浏览 收藏
-
- 科技周边 · 人工智能 | 28分钟前 |
- 小米汽车销量城市排名:杭州第一,北京第九
- 434浏览 收藏
-
- 科技周边 · 人工智能 | 38分钟前 |
- Diffusers图像生成教程:扩散模型推理详解
- 160浏览 收藏
-
- 科技周边 · 人工智能 | 42分钟前 |
- DeepSeek+Premiere智能剪辑教程全解析
- 125浏览 收藏
-
- 科技周边 · 人工智能 | 43分钟前 |
- ChatGPT联动DALL·E教程图文生成攻略
- 268浏览 收藏
-
- 科技周边 · 人工智能 | 45分钟前 |
- 即梦AI作品如何分享与发布步骤
- 222浏览 收藏
-
- 科技周边 · 人工智能 | 52分钟前 | iPhone 大立光
- 大立光林恩平:新机备货启动,产能满载受阻
- 289浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 138次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 159次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 152次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 137次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 157次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览