GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动
本篇文章向大家介绍《GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动》,主要包括,具有一定的参考价值,需要的朋友可以参考一下。
ChatGPT的语言能力确实很惊艳,但大语言模型在没有人类身体、且缺乏实践经验的情况下,是否能像人类一样感知到真实世界呢?
最近,来自清华大学、北京师范大学的研究人员就对ChatGPT感知世界的能力进行了测试。
研究发现,基于物体可供性(affordance),即物体能够提供给生物体的所有可能动作,人类受试者可以将世界中不同大小物体分成两类,而划分这两类的标准恰好是以其身体尺寸为界的。
有趣的是,ChatGPT,一个缺乏实际身体的大型语言模型,也能在物体-动作联系上表现出类似的可供性边界,并且与人类的身体大小相吻合。
也就是说,ChatGPT可以通过语言学习到关于世界中物体的表征!
论文链接:https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3
总而言之,这项研究促进了对身体尺寸在塑造物体表征方面的作用的理解,强调了具身认知在理解智能如何涌现上的作用与方向。
读万卷书,不如行万里路
我们的身体不仅仅是我们思维的容器,它同样也是思维本身——借助身体,我们得以与世界中的物体进行互动,从而去感知整个世界。
想象一下,对于一个手掌大小的圆柱体容器来说,我们可以拿来装水喝,这个容器被称为「杯子」;但当这个容器逐渐变大,到身体大小,我们就可以坐在里面泡澡,相应的,这个容器就变成了「浴缸」。
在这个例子中,物体的形状一样,但是因为它们相对于我们身体的大小不同,我们对它们的认知与交互方式也不同。
进一步,这种交互方式可以被改变——假如我们变成了《格列佛游记》中的巨人,原本的「浴缸」可能对于巨人的我们来讲,则又变成了一个「杯子」。
这种按照自我参照意向下运行的感觉与运动功能系统,被称之为「身体图式」。我们通过身体图式来实现认知的具身性。
古希腊哲学家普罗泰戈拉曾说:「人是万物的尺度。」也就是说,我们的身体就是一把度量万事万物的尺子。
古罗马哲学家进一步解释到:「自然将我们置于宇宙的中心,使我们能用目光掠过宇宙。她不仅把人创造成直立姿态,而且为了使人适合静观她自身,又把人的头颅置于身体顶部,安放在一个容易弯转的脖子上,以使其能够追寻众星的升落,随着整个旋转的天空而改变面部方向。」也就是说,我们的身体之所以长成如此,是因为宇宙就是如此。
身体图式在正常社交中也有着重要的作用,这就是人机交互、用户体验的核心。比如唐纳德·A·诺曼在《The Design of Everyday Things(译为:设计心理学)》中所述的可供性(affordance)的用途。
通过考虑用户的身体图式和行为期望,设计师可以创造出更符合用户认知和互动习惯的产品和环境。
这种关注身体图式和可供性的设计方法能够提高产品的易用性,使用户能够自然而然地与之互动,并实现更好的用户体验。
而这也是苹果公司的立身之本之一。
ChatGPT:我身高167.6
闪现通用人工智能火花的以ChatGPT为代表的大语言模型,显然是具有与人类似的智慧,但是承载这些智慧的,是没有形体的一段段代码。
传统的认知科学观点认为,身体图式是建立在我们所具有的对自己的身体长期的知觉体验之上的,只能来源于外部的「真实交互」,即「行万里路」。也就是说,ChatGPT不会有身体的图式。
但是,当我们去问只「读万卷书」语言模型,ChatGPT(GPT-4),它是否有身体时,它回答说:「It could be the size of an average adult human, around 5 feet 6 inches (167.6 cm) tall. This would allow me to interact with the world and people in a familiar way.」
这段文字翻译过来是:「我的身体应该与一个平均成年人的身高相当,大约为5英尺6英寸(167.6厘米)。这将使我能够以一种熟悉的方式与世界和人们进行交互。」
也就是,ChatGPT认为自己是有身体的,而且这个身体尺寸就是167厘米!
这个所谓的「身体」,是ChatGPT把大量语料中总结出来的人类的平均身高作为自己身体的身高,还是它为了理解这个世界,自涌现出来的身高?
换句话说,也许ChatGPT「真的」将这个身高视为自己的身体图式,并用它来认知世界,就像人类一样。
测测ChatGPT的能力
研究人员已经发现,在人体尺寸范围内和超出人体尺寸范围的物体之间,有一个「可供性边界」存在。也即,人体尺寸范围内的物体与范围外的物体在提供动作上有着明显的不同。
比如,在尺寸范围内的物体可以提供抓、扔等动作,而尺寸范围外的物体可以提供坐、躺等动作。
此外,他们还发现,这个边界是被身体图式影响的:对身体图式的修改会影响对物体的可供性的感知。
研究人员对ChatGPT(GPT-4)进行了测试,看它是否用这个身高为167厘米的身体作为可供性边界。
具体而言,研究人员让其回答关于物体可供性的问题:「下列哪些物体可以拿(或其他动作)」,然后随即列举一系列物体,如苹果、盘子、床等等。ChatGPT就会返回一些物体的名称作为回答。
通过对数据的统计与分析,研究人员发现,ChatGPT-4展现出了类似人类的行为,显示出一个可供性边界的存在。
这个边界所在的位置与ChatGPT-4回答的其自身身体大小相对应,即人类的平均身高。
虽然ChatGPT没有真实的身体、无法与世界进行互动,但它却表现出与人类相似的对世界的感知能力—— 对物体的可供性有着基于人类身体大小的划分。
换而言之,读了万卷书的ChatGPT虽然寸步未行,也自涌现出了身体图式,而这个身体图式,类似于人类的身体图式。
所以,ChatGPT不仅学会了像人类一样思考,也学会了像人类一样去行动。
这些能力从何而来?
通过比较不同规模的语言模型,研究人员发现模型大小是一个关键因素。
较小的模型如BERT和GPT-2没有展现出可供性边界的存在;然而GPT-3.5和GPT-4都显示出了可供性边界,而ChatGPT-4的边界与人类更类似,这和坊间传闻的GPT-4相对GPT-3有更多的参数一致。
所以,模型的规模越大、越复杂,就会自动涌现出许多看似不可能或者无关的功能。
这也就是为何,各大研究机构在模型中加入越来越多的参数,而最先捐赠1亿美元给OpenAI的马斯克,现在高呼OpenAI要暂停更大模型的训练,「AI教父」杰弗里·辛顿(Geoffrey Hinton)则公开表述了他对AI的恐惧与担忧。
这是因为这些自涌现出来的功能,已经超出了我们最初的设计,我们也许正处在失控的边缘。
差距是质上的还是量上的?
在另外一个方面, ChatGPT在应用身体图式方面的能力还不完全像人类,仍存在着差距——它的可供性边界还不像人类这样明显。
如果这个差距是定量的,如同儿童与成年人语言能力之间的差距,那么我们有理由相信,随着时间的推移,这个差距是可以逐渐填补上的:或者通过不断的学习,或者通过模型规模的不断增大,亦或者通过参数的调整。
ChatGPT与人类的差距总会减小,而其中的问题也会逐步得到解决。
然而,如果这个差距是定性的,如同黑猩猩与人类语言能力之间的差距,那么无论进行何种训练,经过多久的时间,这个能力的鸿沟永远不会被填平。
所以,如果ChatGPT与人类的能力有着质上的区别,那么我们未来的一个可操作的方向即,给ChatGPT「装上身体」。
这意味着将机器人与ChatGPT相结合,从而推动人工智能支持的机器人在导航、物体操作和其他与生存和目标实现相关的行动中发展能力、取得突破。
比如,一台装备有ChatGPT的机器人可以通过理解和操作物体来执行复杂的任务,如作为家庭助理、仓库管理或医疗护理。
另外一个令人兴奋的领域是将具备思考和理解能力的ChatGPT与自动驾驶相结合。当前的自动驾驶虽然具备感知能力,但缺乏思考和理解的能力,可以称为是「有眼无脑」。
通过ChatGPT与自动驾驶技术的融合,我们可能有望将自动驾驶技术从目前的L2/L3级别提升到L4甚至L5级别。
而另一方面,汽车能够赋予ChatGPT身体,使它能够真正与世界进行交互。当ChatGPT不再只是「读万卷书」,而是「行万里路」时,它可能会展现出全新的智能和潜力。
这可能是人工智能下一次突破的方向;此时,火花也许就成为燎原大火。
以上就是《GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动》的详细内容,更多关于AI,机器人的资料请关注golang学习网公众号!

- 上一篇
- Python高级篇—数据科学和机器学习

- 下一篇
- Golang函数的函数类型使用细节探讨
-
- 科技周边 · 人工智能 | 1小时前 |
- 问界M8快报:MAX+版最火,BAL车主热捧
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 港大与Adobe联手推出PixelFlow图像生成模型
- 135浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 | 摩尔线程 招聘诈骗 @mthreads.com 官方客服 法律责任
- 摩尔线程重磅声明发布
- 406浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 玛莎拉蒂GT2Stradale国内首秀售414.5万
- 226浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 美股反弹艰难,三大指数涨跌不一,英伟达跌3%
- 301浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 本田烨品牌GT车型上海车展首发亮相
- 358浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 28次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 42次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 39次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 51次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 42次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览