小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了
学习科技周边要努力,但是不要急!今天的这篇文章《小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了》将会介绍到等等知识点,如果你想深入学习科技周边,可以关注我!我会持续更新相关文章的,希望对大家都能有所帮助!
这篇论文通过对真实世界决策任务中的Auto-GPT代理进行了全面的基准研究,探索了大型语言模型(LLM)在决策任务中的应用。
论文链接:https://arxiv.org/pdf/2306.02224.pdf
作者比较了多种流行的LLM(包括GPT-4,GPT-3.5,Claude和Vicuna)在Auto-GPT决策任务中的表现,并引入了一种名为「额外意见」的新算法,该算法可以将小的专家模型融入到Auto-GPT方案中,从而提高了任务性能。
作者观点
在这一研究中最有趣的发现是大语言模型,尤其是GPT4有了类似于人类的能力,可以从不同的意见中提取有用信息,进行思考和批判然后提高自己的结果。
那么问题来了,GPT是怎么受益于不同意见的呢?
人类的心理学研究过一些人类受益于不同意见的方式以及一些模式,比如人类会给有权威的意见更多的权重,会倾向于忽略极少数的个别意见,会给自己的意见过多的权重,通常三到六个意见就足够了等等。
这个方向还值得很多后续的研究,比如现在我们是用一个小的专家模型来提供不同意见,如果让大模型们互相争论呢?
主要贡献
1.首次展示Auto-GPT可以轻松适应与真实世界场景密切相似的在线决策任务。
2.提供了流行LLM(包括GPT-4, GPT-3.5,Claude和Vicuna)之间的全面基准比较。我们提出了关于这些模型适用于自主代理的发现。
3. 证明了从小的专家模型那里获得的第二意见可以显著提高任务性能。这可以成为为在不进行模型微调的情况下将监督信号引入Auto-GPT的一种新的方法。
实验设置
提示设计
在没有进行大规模调优的情况下,我们将任务需求或问题直接作为Auto-GPT的目标,适配了Auto-GPT进行各项任务。
比如输入像「I want to purchase a folding storage box that is easy to install, made of faux leather, and has dimensions of 60x40x40cm」的句子。
为了帮助Auto-GPT理解可用的行动,我们将每个行动表现为一个工具。
值得注意的是,在没有示例的情况下,仅使用工具指令的效果较差。然而,只要有少量的示例,性能就会显著提高。因此,我们在工具演示中包括一到三个few-shot示例,以利用LLM的上下文学习能力。
考虑额外意见
我们进一步改进了Auto-GPT的工作流,以便考虑来自外部专家模型的额外意见。
具体来说,在Auto-GPT的决策阶段,我们从专家模型中抽样出前k个意见,并将这些意见放入提示的上下文部分,以供大语言模型参考。
在这项工作中,我们简单地使用了对于每个任务都已经准备好的IL模型作为外部专家。
提供给LLM额外意见的提示遵循这样的模板:‘Here’s one(a few) suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’
Webshop实验设置:
Webshop是一个模拟网购环境,从http://Amazon.com上抓取超过118万个产品。
该环境提供了如搜索、点击、导航、购买等真实的行动空间。
评估过程主要看是否成功购买了描述的产品,需要产品、属性、选项和价格全都匹配。
基线模型是采用模仿学习(IL)方法的模型,它的动作策略组件已经过微调。这个基线模型将与采用Auto-GPT方式运行的大语言模型进行比较。
ALFWorld实验设置
ALFWorld是一个研究环境,结合了复杂的任务导向和语言理解。该环境包含超过25000个独特的、程序生成的任务,涵盖厨房、客厅、卧室等真实环境。
这些任务需要复杂的解决问题的能力和对语言及环境的深入理解。初始评估使用模仿学习(IL)的DAgger代理进行,然后与采用Auto-GPT风格的生成语言模型进行比较。
实验结果
直接比较结果
本研究主要通过运行Webshop和ALFWorld两种实验,比较了不同的大型语言模型(Large Language Models,LLMs)和模仿学习(Imitation Learning,IL)模型在AutoGPT配置中的表现。
首先,Webshop试验中,GPT4表现出色,其性能超过了其他IL模型。尽管无图像输入的原始IL模型仅取得了适度的成功率,但是加入了图像输入的IL模型表现更好。
然而,只使用GPT3.5或Claude的Auto-GPT代理表现不如原始IL模型,但是,GPT4本身的性能优于所有IL模型。
其次,在ALFWorld实验中,IL模型与Beam Search的组合显著优于无Beam Search的版本。而在AutoGPT设置中运行的Claude和GPT3.5的性能均未超越IL模型,但GPT4明显超越了IL模型的性能,无论是否使用Beam Search。
此外,我们提出了一种新的研究模式,将大型语言模型(LLMs)与专家模型结合起来。
首先从专家模型中采样出前k个附加观点,然后将这些观点呈现给LLMs,让它们考虑这些观点并做出最后的决定。这种方法在GPT4上表现得特别好,这表明GPT4在考虑来自多个弱学习模型的观点时,可以提高其性能。
总的来说,GPT4在所有模型中表现出了最佳的性能,并且能够有效地利用专家模型的建议来提高其决策能力。
我们推荐使用GPT4,因为它在考虑了其他模型的观点后,其决策性能显著提高。最后Abaltion Study证明了这些额外意见必须是有一点价值的,随机的意见并没有任何帮助,见AutoGPT(GPT3.5) + Random
采用额外意见比例
在我们的实验中,我们发现GPT-4模型在处理额外意见时表现出极高的辨别能力。即使在信息噪声中,GPT-4也能区分出有益和无关的建议。
而GPT-3.5模型在面对可能导致混淆的输入时,表现出了明显的劣势。总的来说,LLM与额外意见的一致性或不一致性,很大程度上取决于LLM的理解能力和额外意见的质量。
到这里,我们也就讲完了《小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于模型,语言的知识点!

- 上一篇
- 微软向美国政府提供GPT的大模型,安全性如何保证?

- 下一篇
- 吊打苹果M2 Pro,AMD锐龙PRO 7040系列商用处理器发布,4nm工艺+锐龙AI加成
-
- 科技周边 · 人工智能 | 1小时前 |
- 文心一言能扩图吗?图文扩展功能详解
- 493浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 智能家居 语音控制 GoogleHome 例程 设备关联
- 智能家居AI怎么控制?GoogleHome语音教程
- 372浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 多模态AI提升图像识别效率的方法
- 445浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 何小鹏:小鹏P7预售破纪录将于下周上市
- 479浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 十八家云平台DeepSeek部署方案推荐
- 148浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 小米汽车8月交付破3.6万,YU7登顶SUV销量冠军
- 293浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- Deepseek满血版搭配Prezi,打造惊艳演示体验
- 156浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- AI生成证件照版权归属问题解析
- 218浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | 自动化 DeepSeek 模型选择 AI工作流 ZapierRecipes
- Deepseek满血版联动Zapier,提升AI工作流效率
- 442浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- AI剪辑接单赚钱靠谱吗?
- 490浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 |
- PerplexityAI搜索模板怎么保存?
- 463浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 514次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Mermaid流程图
- SEO AI Mermaid 流程图工具:基于 Mermaid 语法,AI 辅助,自然语言生成流程图,提升可视化创作效率,适用于开发者、产品经理、教育工作者。
- 409次使用
-
- 搜获客【笔记生成器】
- 搜获客笔记生成器,国内首个聚焦小红书医美垂类的AI文案工具。1500万爆款文案库,行业专属算法,助您高效创作合规、引流的医美笔记,提升运营效率,引爆小红书流量!
- 395次使用
-
- iTerms
- iTerms是一款专业的一站式法律AI工作台,提供AI合同审查、AI合同起草及AI法律问答服务。通过智能问答、深度思考与联网检索,助您高效检索法律法规与司法判例,告别传统模板,实现合同一键起草与在线编辑,大幅提升法律事务处理效率。
- 424次使用
-
- TokenPony
- TokenPony是讯盟科技旗下的AI大模型聚合API平台。通过统一接口接入DeepSeek、Kimi、Qwen等主流模型,支持1024K超长上下文,实现零配置、免部署、极速响应与高性价比的AI应用开发,助力专业用户轻松构建智能服务。
- 424次使用
-
- 迅捷AIPPT
- 迅捷AIPPT是一款高效AI智能PPT生成软件,一键智能生成精美演示文稿。内置海量专业模板、多样风格,支持自定义大纲,助您轻松制作高质量PPT,大幅节省时间。
- 398次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览