「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍
科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!
在大型语言模型(LLM)的支持下,与视觉结合的多模态任务,例如图像描述、视觉问答(VQA)和开放词汇目标识别(open-vocabulary object detection)等方面都取得了显著的进展
不过目前视觉语言模型(VLM)基本都只是利用图像内的视觉信息来完成任务,在inforseek和OK-VQA等需要外部知识辅助问答的数据集上往往表现不佳。
最近谷歌发表了一个全新的自主视觉信息搜索方法AVIS,利用大型语言模型(LLM)来动态地制定外部工具的使用策略,包括调用API、分析输出结果、决策等操作为图像问答提供关键知识。
请点击以下链接阅读论文:https://arxiv.org/pdf/2306.08129.pdf
AVIS主要整合了三种类型的工具:
1. 从图像中提取视觉信息的工具
2. 检索开放世界知识和事实的网络搜索工具
3. 图像搜索工具,可用于检索视觉上相似的图像
然后使用基于大型语言模型的规划器在每个步骤中选择一个工具和查询结果,动态地生成问题答案。
模拟人类决策
Infoseek和OK-VQA数据集中的许多视觉问题甚至对人类来说都相当难,通常需要各种外部工具的辅助,所以研究人员选择先进行一项用户调研,观察人类在解决复杂视觉问题时的解决方案。
首先,我们会为用户提供一套可用的工具集,其中包括PALI、PALM和网络搜索。接下来,我们会展示输入图像、问题、检测到的物体裁剪图、图像搜索结果的链接知识图谱实体、相似的图像标题、相关的产品标题以及图像描述
接着,研究人员会记录用户的操作和输出,并采用两种方式来引导系统做出回答:
1. 通过分析用户做出的决策序列来构建转换图,其中包含不同的状态,每个状态下的可用操作集都不同。
重写内容:AVIS转换图 重新设计的AVIS转换图是一个图形化的表示,用于展示AVIS的转换过程。这个图表清晰地展示了AVIS的各个阶段和步骤,并且以易于理解的方式呈现给用户。通过这个转换图,用户可以更好地了解AVIS的工作原理和操作流程。这个图表的设计简洁明了,使得用户能够快速地掌握AVIS的转换过程。无论是初学者还是有经验的用户,都可以通过这个AVIS转换图轻松地理解和应用转换过程
例如在开始状态下,系统只能执行三个操作:PALI描述、PALI VQA或目标检测。
为了提高系统的性能和有效性,可以使用人类决策的样例来引导规划器和推理器与相关的上下文实例进行交互
总体框架
AVIS方法采用了一种动态的决策策略,旨在对视觉信息的查询做出响应
该系统包含三个主要组成部分:
需要重新写的内容是:1. 规划器(planner),用于确定后续操作,包括适当的API调用和需要处理的查询
2. 运行记忆(working memory)工作内存,保留了从API执行中获得的结果信息。
3. 推理器(reasoner)用于处理API调用的输出,可以判断所获得的信息是否足以生成最终响应,或者是否需要进行额外的数据检索
每次需要决定使用哪个工具以及向系统发送哪些查询时,规划器都会执行一系列操作;根据当前的状态,规划器还会提供潜在的后续动作
为了解决由于潜在的动作空间可能过多,导致搜索空间过大的问题,规划器需要参考转换图来消除不相关的动作,排除之前已经采取并存储在工作记忆中的动作。
然后由规划器从用户研究数据中组装出一套上下文示例,结合之前工具交互的记录,由规划器制定提示后输入到语言模型中,LLM再返回一个结构化的答案,确定要激活的下一个工具以及派发的查询。
可以通过多次调用规划器来推动动态决策,并逐步生成答案的整个设计流程
研究人员使用推理器来分析工具执行的输出,提取有用的信息,并决定工具输出的类别:提供信息的、不提供信息的或最终答案
如果推理器返回结果是「提供答案」,则直接输出作为最终结果,结束任务;如果结果是无信息,则退回规划器,并基于当前状态选择另一个动作;如果推理器认为工具输出是有用的,则修改状态并将控制权转移回规划器,以在新状态下做出新的决定。
AVIS采用动态决策策略来响应视觉信息搜索查询
实验结果
需要重写的内容是:工具集合
使用PALI 17B模型,图像描述模型可以为输入图像和检测到的物体裁剪图像生成描述
视觉问题回答模型,使用 PALI 17B VQA 模型,将图像和问题作为输入,并将基于文本的答案作为输出。
物体检测,使用在Open Images数据集的超集上训练的物体检测器,具体类别Google Lens API提供;使用高置信度阈值,只保留 输入图像中排名靠前的检测框。
使用Google图像搜索来获取与检测到的方框相关的图像裁剪信息
在进行决策时,规划器将每条信息的利用都视为一项单独的操作,因为每条信息可能包含数百个token,需要进行复杂的处理和推理。
在某些情况下,图像可能包含文字内容,例如街道名称或品牌名称。您可以使用Google Lens API中的光学字符识别(OCR)功能来提取这些文本
通过使用谷歌搜索API进行网络搜索,可以输入文本查询,并获得相关文档链接和片段的输出结果,同时还可以提供一个知识图谱面板,其中包含直接答案,以及最多五个与输入查询相关的问题
实验结果
研究人员在Infoseek和OK-VQA数据集上对AVIS框架进行了评估,从结果中可以看到,即使是健壮性非常好的视觉语言模型,如OFA和PALI模型,在Infoseek数据集上进行微调后也无法获得高准确性。
在没有进行微调的情况下,AVIS方法成功达到了50.7%的准确率
在OK-VQA数据集上,AVIS系统在few-shot设置下实现了60.2%的准确率,仅次于微调后的PALI模型。
OK-VQA中的大多数问答示例依赖于常识知识而非细粒度知识,因此性能上的差异可能是由于这一点。PALI能够利用在模型参数中编码的通用知识,而无需依赖外部知识的辅助
AVIS的一个关键特性是能够动态地做出决策,而非执行固定的序列,从上面的样例中可以看出AVIS在不同阶段使用不同工具的灵活性。
值得注意的是,文中推理器设计使AVIS能够识别不相关的信息,回溯到以前的状态,并重复搜索。
例如,在关于真菌分类学的第二个例子中,AVIS最初通过选择叶子对象做出了错误的决定;推理器发现与问题无关后,促使AVIS重新规划,然后成功地选择了与假火鸡尾真菌有关的对象,从而得出了正确的答案,Stereum
结论
研究人员提出了一种新的方法AVIS,将LLM作为装配中心,使用各种外部工具来回答知识密集型的视觉问题。
在这种方法中,研究人员选择使用从用户研究中收集的人类决策数据作为锚定点,采用结构化的框架,并使用基于LLM的规划器来动态决定工具选择和查询形成
LLM驱动的推理器可以从所选工具的输出中处理和提取关键信息,通过迭代地使用规划器和推理器来选择不同的工具,直到收集到回答视觉问题所需的所有必要信息
以上就是《「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍》的详细内容,更多关于模型,训练的资料请关注golang学习网公众号!

- 上一篇
- 标题重写为:人工智能热潮席卷企业,令其应接不暇

- 下一篇
- 腾讯悄然为 QQ 客户端“用户二维码”增添了“AI 生图”功能
-
- 科技周边 · 人工智能 | 1小时前 |
- 小米YU7试生产曝光用于展车及测试
- 438浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 路虎揽胜星脉电动版2026年亮相800V平台三排座
- 139浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 即梦ai时间戳添加教程与日期水印设置攻略
- 172浏览 收藏
-
- 科技周边 · 人工智能 | 5小时前 | 即梦AI客服 问题反馈
- 即梦ai客服支持与问题反馈渠道大揭秘
- 293浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 操作系统升级补丁:设备盔甲还是致命陷阱?
- 367浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 40次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 34次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 35次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 37次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 50次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览