当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > GPT-4V/Gemini未能达到20%的准确率在首次图像序列基准测试中，同时发布了开源代码

GPT-4V/Gemini未能达到20%的准确率在首次图像序列基准测试中，同时发布了开源代码

来源：51CTO.COM 2024-02-01 13:00:35 0浏览收藏

热门推荐

漫画APP

漫画阅读推荐，热门漫画资源更好找

从现在开始，努力学习吧！本文《GPT-4V/Gemini未能达到20%的准确率在首次图像序列基准测试中，同时发布了开源代码》主要讲解了等等相关知识点，我会在golang学习网中持续更新相关的系列文章，欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧，希望能帮到你！

OpenAI的GPT-4V和谷歌的Gemini多模态大语言模型引起了业界和学界的广泛关注。这些模型在多个领域展示了对视频的深入理解能力，从不同角度呈现出了其潜力。人们普遍认为这些进展是通向通用人工智能（AGI）的重要一步。

可如果告诉你，GPT-4V连漫画中的人物行为都会看错, 试问：元芳,你怎么看？

我们来看看这幅迷你漫画系列:

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

如果让生物界最高智能体——人类，也就是读者朋友来描述, 你大概率会说:

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

那我们来看看当机器界最高智能体——也就是GPT-4V来看这幅迷你漫画系列的时候，它会这么描述呢?

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

GPT-4V作为公认的站在鄙视链顶端的机器智能体，居然公然睁眼说瞎话。

还有更离谱的是，就算给GPT-4V实际的生活图像片段，它也会把一个人上楼梯过程中与另一个人交谈的行为也离谱的识别成两个人手持「武器」相互打斗嬉闹（如下图所示）。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

Gemini也不遑多让，同样的图像片段，把这个过程看成了男子艰难上楼并与妻子争吵被锁在屋里。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

这些例子都来自于马里兰大学联合北卡教堂山的研究团队的最新成果，他们推出了一个专门为MLLM设计的图像序列的推理基准测试——Mementos。

就像诺兰的电影《Memento记忆碎片》重新定义了叙事方式，Mementos正在重塑测试人工智能的上限。

作为一个全新的基准测试，它挑战的是人工智能对如记忆碎片般的图像序列的理解。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

论文链接：https://arxiv.org/abs/2401.10529

项目主页：https://mementos-bench.github.io

Mementos是第一个专为MLLM设计的图像序列推理的基准测试，主要关注大模型在连续图像上的对象幻觉和行为幻觉。

其涉及的图片类型多样，涵盖三大类别：真实世界图像，机器人图像，以及动漫图像。

并且包含了4,761个不同长度的多样化图像序列，每个序列都配有人类注释的主要对象及其在序列中的行为描述。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

目前数据已经开源，并且还在更新中。

幻觉类型

作者在论文中阐述了MLLM在Mementos中会产生的两种幻觉：对象幻觉（object hallucination）和行为幻觉（behavior hallucination）。

顾名思义, 对象幻觉是幻想出不存在的对象(object), 而行为幻觉则是幻想出对象并没有做出的动作与行为。

测评方式

对于如何准确的评估MLLM在Mementos上的行为幻觉和对象幻觉，研究团队选择了将MLLM产生的图像描述和人标注的描述进行关键词匹配。

为了自动化评测每一个MLLM的表现，作者采用了GPT-4辅助测试的方法来进行评估：

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

1. 作者将图像序列和提示词作为输入给MLLM，并生成与相应图像序列对应的描述；

2. 请求GPT-4提取AI生成描述中的对象和行为关键词；

3. 获得两个关键词列表：AI生成的对象关键词列表和AI生成的行为关键词列表；

4. 计算AI生成的对象关键词列表和行为关键词列表和人的标注的关键词表的召回率、准确率和F1指标。

测评结果

作者在Mementos上评估了MLLMs在序列图像推理方面的表现，对包括GPT4V和Gemini在内的九种最新的MLLMs进行了细致的评估。

MLLM被要求来描述图像序列中正在发生的事件，从而来测评MLLM对于连续图像的推理能力。

结果发现，如下图所示，GPT-4V和Gemini对于人物行为在漫画数据集的正确率竟然不到20%。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

而在真实世界图像和机器人图像中，GPT-4V和Gemini的表现也不尽如人意：

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

关键点

1. 在评估多模态大型语言模型时，GPT-4V和LLaVA-1.5分别是在黑盒和开源MLLMs中表现最好的模型。GPT-4V在理解图像序列方面的推理能力优于其他所有MLLMs，而LLaVA-1.5在对象理解方面几乎与黑盒模型Gemini相当或甚至超越。

2. 虽然Video-LLaMA-2和Chat-UniVi是为视频理解设计的，但它们并没有显示出比LLaVA-1.5更好的优势。

3. 所有MLLMs在图像序列中对象推理的三个指标上表现显著优于行为推理，表明当前MLLMs在从连续图像中自主推断行为的能力不强。

4. 黑盒模型在机器人领域的表现最佳，而开源模型在日常生活领域表现相对较好。这可能与训练数据的分布偏移有关。

5. 训练数据的局限性导致开源MLLMs的推理能力较弱。这表明了训练数据的重要性以及它对模型性能的直接影响。

错误原因

作者对当前多模态大型语言模型在处理图像序列推理时失败的原因的分析，主要识别了三个错误原因:

1. 对象与行为幻觉之间的相互作用

研究假设，错误的对象识别会导致随后的行为识别不准确。量化分析和案例研究表明，对象幻觉会在一定程度上导致行为幻觉。例如，当MLLM错误地将场景识别为网球场后，可能会描述人物正在打网球，即使这种行为在图像序列中并不存在。

2. 共现对行为幻觉的影响

MLLM倾向于生成在图像序列推理中常见的行为组合，这加剧了行为幻觉的问题。例如，在处理机器人领域的图像时，MLLM可能错误地描述一个机器人手臂在“抓取把手”之后拉开抽屉，即使实际行为是“抓取抽屉的侧面”。

3. 行为幻觉的雪球效应

随着图像序列的进行，错误可能会逐渐累积或加剧，这称为雪球效应。在图像序列推理中，如果早期出现错误，这些错误可能会在序列中积累和放大，导致对象和行为识别的准确性下降。

举个例子

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

从上图可知，MLLM失败原因包括对象幻觉以及对象幻觉与行为幻觉之间的相关性，以及共现行为。

例如，在出现「网球场」的对象幻觉后，MLLM随后展现出「拿着网球拍」的行为幻觉（对象幻觉与行为幻觉之间的相关性）以及「似乎在打网球」的共现行为。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

观察上图中的样本，可以发现MLLM错误地认为椅子再往后仰并且认为椅子碎掉了。

这一现象揭示了MLLM对于图像序列中的静止的对象，它也会产生这个对象发生了某些动作的幻觉。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

在上图关于机械臂的图像序列展示中，机械臂伸到了把手旁边，MLLM就错误地认为机械臂抓住了把手，证明了MLLM会生成在图像序列推理中常见的行为组合，从而产生幻觉。

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源图片

在上图的案例中，老夫子并没有牵着狗，MLLM错误地认为遛狗就要牵着狗，并且「狗的撑杆跳」被识别成了「创造了喷泉」。

大量的错误反映了MLLM对于漫画领域的不熟悉，在二次元动漫领域，MLLM可能需要大幅度的优化和预训练.

在附录中，作者通过详细展示了各主要类别中的失败案例，并进行了深入的分析。

总结

近年来，多模态大型语言模型在处理各种视觉-语言任务上展现出了卓越的能力。

这些模型，如GPT-4V和Gemini，能够理解和生成与图像相关的文本，极大地推动了人工智能技术的发展。

然而，现有的MLLM基准测试主要集中于基于单张静态图像的推理，而对于从图像序列中推断，这对于理解我们不断变化的世界至关重要，的能力研究相对较少。

为了解决这一挑战，研究人员提出了一种新的基准测试「Mementos」，目的是评估MLLMs在序列图像推理方面的能力。

Mementos包含了4761个不同长度的多样化图像序列。此外，研究团队还采用了GPT-4辅助方法来评估MLLM的推理性能。

通过对九个最新的MLLMs（包括GPT-4V和Gemini）在Mementos上的仔细评估，研究发现这些模型在准确描述给定图像序列的动态信息方面存在挑战，常常导致对象及其行为的幻觉/误表达。

量化分析和案例研究识别出三个关键因素影响MLLMs的序列图像推理：

1. 对象和行为幻觉之间的相关性；

2. 共现行为的影响；

3. 行为幻觉的累积影响。

这一发现对于理解和提升MLLMs在处理动态视觉信息方面的能力具有重要意义。Mementos基准不仅揭示了当前MLLMs的局限性，也为未来的研究和改进提供了方向。

随着人工智能技术的快速发展，MLLMs在多模态理解领域的应用将变得更加广泛和深入。Mementos基准测试的引入，不仅推动了这一领域的研究，也为我们提供了新的视角，去理解和改进这些先进的AI系统如何处理和理解我们复杂多变的世界。

参考资料：

https://github.com/umd-huanglab/Mementos

今天关于《GPT-4V/Gemini未能达到20%的准确率在首次图像序列基准测试中，同时发布了开源代码》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

机器人语言模型图像序列

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

南大周志华团队：学件系统解决机器学习复用难题，模型融合引领科研新趋势

南大周志华团队：学件系统解决机器学习复用难题，模型融合引领科研新趋势

上一篇: 南大周志华团队：学件系统解决机器学习复用难题，模型融合引领科研新趋势

如何在苹果mac上设置开机密码？

下一篇: 如何在苹果mac上设置开机密码？

查看更多

最新文章

科技周边 · 人工智能 | 10小时前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

2999次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

2768次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2706次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

2936次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

2884次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码