终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人
怎么入门科技周边编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人》,涉及到,有需要的可以收藏一下
大语言模型的飞速「变异」,让人类社会的走向越来越科幻了。点亮这棵科技树后,「终结者」的现实仿佛离我们越来越近。
前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。
谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。
论文地址:https://arxiv.org/abs/2303.03378
作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。
此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。
横跨机器人、视觉-语言领域的「通才」模型
PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。
它的强大之处在于,能够利用视觉数据来增强其语言处理能力。
当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言
据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。
其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。
经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。
可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。
更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。
除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。
在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。
而在模型尺度上,研究人员则观察到了一个显著的优势。
语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。
从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。
尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。
在OK-VQA基准上,PaLM-E取得了新的SOTA。
测评结果
在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。
值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。
在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。
比如,「从抽屉里拿出薯片」这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。
经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。
人类:给我来点薯片。
机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。
同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——
人类:给我拿一个苹果。
机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。
除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。
研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务「将积木按颜色分类到不同的角落」。
如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。
模型的泛化方面,PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。
值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。
类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边
在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。
多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。
此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。
比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。
以及一般的QA和标注等多种任务。
最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。
但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

- 上一篇
- 人工智能,自动驾驶的思维起步

- 下一篇
- 语音识别技术在B站的落地实践
-
- 神勇的导师
- 这篇技术贴太及时了,太细致了,写的不错,已加入收藏夹了,关注博主了!希望博主能多写科技周边相关的文章。
- 2023-05-11 22:43:51
-
- 壮观的心锁
- 很有用,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢作者分享文章内容!
- 2023-04-28 19:50:54
-
- 陶醉的水池
- 很有用,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,看完之后很有帮助,总算是懂了,感谢大佬分享技术文章!
- 2023-04-24 13:01:11
-
- 会撒娇的香菇
- 这篇文章内容真及时,好细啊,真优秀,收藏了,关注up主了!希望up主能多写科技周边相关的文章。
- 2023-04-19 12:24:09
-
- 科技周边 · 人工智能 | 5小时前 |
- AI工具入门指南:学习到实操全路线解析
- 395浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- AI剪辑能取代剪辑师吗?未来三年趋势分析
- 385浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- 豆包AI助你高效完成Python单元测试
- 184浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- Deepseek+Descript,专业剪辑新体验
- 307浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 豆包AI冷知识!蹭热点图生成技巧
- 247浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- AI剪辑原理及实用技巧详解
- 349浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- DeepSeekAPI负载均衡详解
- 400浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- AI打造稳定收入系统,实战技巧全解析
- 425浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- AIOverviews合规设置与监管指南
- 483浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- DispatchMail:开源AI邮件助手,自动化管理邮箱
- 249浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- Midjourney与RunwayMLGen-2:静图变动态图神器
- 160浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- AIOverviews异常监控设置教程
- 253浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 334次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 341次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 333次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 337次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 360次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览