GPT-4V/Gemini未能达到20%的准确率在首次图像序列基准测试中,同时发布了开源代码
从现在开始,努力学习吧!本文《GPT-4V/Gemini未能达到20%的准确率在首次图像序列基准测试中,同时发布了开源代码》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
OpenAI的GPT-4V和谷歌的Gemini多模态大语言模型引起了业界和学界的广泛关注。这些模型在多个领域展示了对视频的深入理解能力,从不同角度呈现出了其潜力。人们普遍认为这些进展是通向通用人工智能(AGI)的重要一步。
可如果告诉你,GPT-4V连漫画中的人物行为都会看错, 试问:元芳,你怎么看?
我们来看看这幅迷你漫画系列:
图片
如果让生物界最高智能体——人类,也就是读者朋友来描述, 你大概率会说:
图片
那我们来看看当机器界最高智能体——也就是GPT-4V来看这幅迷你漫画系列的时候,它会这么描述呢?
图片
GPT-4V作为公认的站在鄙视链顶端的机器智能体,居然公然睁眼说瞎话。
还有更离谱的是,就算给GPT-4V实际的生活图像片段,它也会把一个人上楼梯过程中与另一个人交谈的行为也离谱的识别成两个人手持「武器」相互打斗嬉闹 (如下图所示)。
图片
Gemini也不遑多让,同样的图像片段,把这个过程看成了男子艰难上楼并与妻子争吵被锁在屋里。
图片
这些例子都来自于马里兰大学联合北卡教堂山的研究团队的最新成果,他们推出了一个专门为MLLM设计的图像序列的推理基准测试——Mementos。
就像诺兰的电影《Memento记忆碎片》重新定义了叙事方式,Mementos正在重塑测试人工智能的上限。
作为一个全新的基准测试,它挑战的是人工智能对如记忆碎片般的图像序列的理解。
图片
论文链接:https://arxiv.org/abs/2401.10529
项目主页:https://mementos-bench.github.io
Mementos是第一个专为MLLM设计的图像序列推理的基准测试,主要关注大模型在连续图像上的对象幻觉和行为幻觉。
其涉及的图片类型多样,涵盖三大类别:真实世界图像,机器人图像,以及动漫图像。
并且包含了4,761个不同长度的多样化图像序列,每个序列都配有人类注释的主要对象及其在序列中的行为描述。
图片
目前数据已经开源,并且还在更新中。
幻觉类型
作者在论文中阐述了MLLM在Mementos中会产生的两种幻觉:对象幻觉(object hallucination)和行为幻觉(behavior hallucination)。
顾名思义, 对象幻觉是幻想出不存在的对象(object), 而行为幻觉则是幻想出对象并没有做出的动作与行为。
测评方式
对于如何准确的评估MLLM在Mementos上的行为幻觉和对象幻觉,研究团队选择了将MLLM产生的图像描述和人标注的描述进行关键词匹配。
为了自动化评测每一个MLLM的表现,作者采用了GPT-4辅助测试的方法来进行评估:
图片
1. 作者将图像序列和提示词作为输入给MLLM,并生成与相应图像序列对应的描述;
2. 请求GPT-4提取AI生成描述中的对象和行为关键词;
3. 获得两个关键词列表:AI生成的对象关键词列表和AI生成的行为关键词列表;
4. 计算AI生成的对象关键词列表和行为关键词列表和人的标注的关键词表的召回率、准确率和F1指标。
测评结果
作者在Mementos上评估了MLLMs在序列图像推理方面的表现,对包括GPT4V和Gemini在内的九种最新的MLLMs进行了细致的评估。
MLLM被要求来描述图像序列中正在发生的事件,从而来测评MLLM对于连续图像的推理能力。
结果发现,如下图所示,GPT-4V和Gemini对于人物行为在漫画数据集的正确率竟然不到20%。
图片
而在真实世界图像和机器人图像中,GPT-4V和Gemini的表现也不尽如人意:
图片
关键点
1. 在评估多模态大型语言模型时,GPT-4V和LLaVA-1.5分别是在黑盒和开源MLLMs中表现最好的模型。GPT-4V在理解图像序列方面的推理能力优于其他所有MLLMs,而LLaVA-1.5在对象理解方面几乎与黑盒模型Gemini相当或甚至超越。
2. 虽然Video-LLaMA-2和Chat-UniVi是为视频理解设计的,但它们并没有显示出比LLaVA-1.5更好的优势。
3. 所有MLLMs在图像序列中对象推理的三个指标上表现显著优于行为推理,表明当前MLLMs在从连续图像中自主推断行为的能力不强。
4. 黑盒模型在机器人领域的表现最佳,而开源模型在日常生活领域表现相对较好。这可能与训练数据的分布偏移有关。
5. 训练数据的局限性导致开源MLLMs的推理能力较弱。这表明了训练数据的重要性以及它对模型性能的直接影响。
错误原因
作者对当前多模态大型语言模型在处理图像序列推理时失败的原因的分析,主要识别了三个错误原因:
1. 对象与行为幻觉之间的相互作用
研究假设,错误的对象识别会导致随后的行为识别不准确。量化分析和案例研究表明,对象幻觉会在一定程度上导致行为幻觉。例如,当MLLM错误地将场景识别为网球场后,可能会描述人物正在打网球,即使这种行为在图像序列中并不存在。
2. 共现对行为幻觉的影响
MLLM倾向于生成在图像序列推理中常见的行为组合,这加剧了行为幻觉的问题。例如,在处理机器人领域的图像时,MLLM可能错误地描述一个机器人手臂在“抓取把手”之后拉开抽屉,即使实际行为是“抓取抽屉的侧面”。
3. 行为幻觉的雪球效应
随着图像序列的进行,错误可能会逐渐累积或加剧,这称为雪球效应。在图像序列推理中,如果早期出现错误,这些错误可能会在序列中积累和放大,导致对象和行为识别的准确性下降。
举个例子
图片
从上图可知,MLLM失败原因包括对象幻觉以及对象幻觉与行为幻觉之间的相关性,以及共现行为。
例如,在出现「网球场」的对象幻觉后,MLLM随后展现出「拿着网球拍」的行为幻觉(对象幻觉与行为幻觉之间的相关性)以及「似乎在打网球」的共现行为。
图片
观察上图中的样本,可以发现MLLM错误地认为椅子再往后仰并且认为椅子碎掉了。
这一现象揭示了MLLM对于图像序列中的静止的对象,它也会产生这个对象发生了某些动作的幻觉。
图片
在上图关于机械臂的图像序列展示中,机械臂伸到了把手旁边,MLLM就错误地认为机械臂抓住了把手,证明了MLLM会生成在图像序列推理中常见的行为组合,从而产生幻觉。
图片
在上图的案例中,老夫子并没有牵着狗,MLLM错误地认为遛狗就要牵着狗,并且「狗的撑杆跳」被识别成了「创造了喷泉」。
大量的错误反映了MLLM对于漫画领域的不熟悉,在二次元动漫领域,MLLM可能需要大幅度的优化和预训练.
在附录中,作者通过详细展示了各主要类别中的失败案例,并进行了深入的分析。
总结
近年来,多模态大型语言模型在处理各种视觉-语言任务上展现出了卓越的能力。
这些模型,如GPT-4V和Gemini,能够理解和生成与图像相关的文本,极大地推动了人工智能技术的发展。
然而,现有的MLLM基准测试主要集中于基于单张静态图像的推理,而对于从图像序列中推断,这对于理解我们不断变化的世界至关重要,的能力研究相对较少。
为了解决这一挑战,研究人员提出了一种新的基准测试「Mementos」,目的是评估MLLMs在序列图像推理方面的能力。
Mementos包含了4761个不同长度的多样化图像序列。此外,研究团队还采用了GPT-4辅助方法来评估MLLM的推理性能。
通过对九个最新的MLLMs(包括GPT-4V和Gemini)在Mementos上的仔细评估,研究发现这些模型在准确描述给定图像序列的动态信息方面存在挑战,常常导致对象及其行为的幻觉/误表达。
量化分析和案例研究识别出三个关键因素影响MLLMs的序列图像推理:
1. 对象和行为幻觉之间的相关性;
2. 共现行为的影响;
3. 行为幻觉的累积影响。
这一发现对于理解和提升MLLMs在处理动态视觉信息方面的能力具有重要意义。Mementos基准不仅揭示了当前MLLMs的局限性,也为未来的研究和改进提供了方向。
随着人工智能技术的快速发展,MLLMs在多模态理解领域的应用将变得更加广泛和深入。Mementos基准测试的引入,不仅推动了这一领域的研究,也为我们提供了新的视角,去理解和改进这些先进的AI系统如何处理和理解我们复杂多变的世界。
参考资料:
https://github.com/umd-huanglab/Mementos
今天关于《GPT-4V/Gemini未能达到20%的准确率在首次图像序列基准测试中,同时发布了开源代码》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- 南大周志华团队:学件系统解决机器学习复用难题,模型融合引领科研新趋势

- 下一篇
- 如何在苹果mac上设置开机密码?
-
- 科技周边 · 人工智能 | 5小时前 | 深蓝汽车
- 深蓝汽车4月销量2.01万辆,同比增58%
- 170浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- 小鹏智驾辟谣回归有图方案,详解基座模型路线
- 410浏览 收藏
-
- 科技周边 · 人工智能 | 6小时前 |
- U8L上海车展首秀,甲骨文黄金车标亮眼
- 470浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- DeepSeek-Prover-V2发布:开源数学推理大模型
- 196浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 | 自动化 挑战 豆包AI智能体生成器 定制AI 智能决策
- 豆包AI智能体生成器,轻松打造你的专属AI
- 461浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 新势力Q1销量揭晓:仅两家达20%年目标
- 382浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 大众电动车欧洲销量超特斯拉注册量暴涨
- 332浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 12次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 11次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 10次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 15次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 16次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览