当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

来源：51CTO.COM 2023-04-28 21:18:07 0浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

视觉指令微调火了。

这篇论文名为Visual Instruction Tuning，由威斯康星大学麦迪逊分校，微软研究院和哥伦比亚大学共同出品。

作者包括Haotian Liu，Chunyuan Li，Qingyang Wu和Yong Jae Lee。

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

同时，研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。

讲解

那么LLaVA的功能究竟是什么呢？如果一头扎进论文，不熟悉的朋友可能会有些陌生。

我们先看看LLaVA自己怎么说。

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

以上回答生成自LLaVA的Chatbot，我输入的问题是，LLaVA的功能是什么，用户该如何利用它？

回答如下：

LLaVA是一个大语言和视觉助手，在UW Madison WAIV实验室经受的训练。LLaVA被设计出来的目的，就是帮助用户处理各类任务，方法则是借助自然语言理解的能力和视觉内容分析的能力。

LLaVA的主要功能包括：

· 以文本为基础的任务：LLaVA可以处理并分析文本，允许用户问问题，LLaVA可以和用户交谈，或者完成用户输入的任务，比如说提炼文件概要，情感分析，实体识别等等。

· 以图像为基础的任务：LLaVA可以分析图像，描述图像，进行物体识别，分析理解场景。

用户如果想更好地应用LLaVA，可以直接和LLaVA进行交谈，就像和人类之间对话一样。尽可能多的提供细节，LLaVA就会生成出一个更完善的答案。

同时应该记住，说到底LLaVA是一个机器学习模型，是一个AI工具。只要是工具，就有其限制。LLaVA不一定每一次都能完美地回答用户输入的问题。

当然，LLaVA也在不断学习和完善，其功能也会越来越强大。

总的来说，从LLaVA的回答中可以看出，在Chatbot这方面，和GPT的功能差不了太多。但是LLaVA可以处理一些有关图像的任务。

表现出彩

研究人员在Arxiv的论文中详细介绍了LLaVA的技术细节。

要知道使用机器生成的指令跟随数据对大型语言模型（LLMs）进行指令微调，提高了新任务的零点能力，但这个想法在多模态领域的探索较少。

在论文中，研究人员首次尝试使用仅有语言的GPT-4来生成多模态语言图像的指令跟随数据。

通过对这种生成的数据进行指令调整，研究人员引入了LLaVA：这是一个大型语言和视觉助手，是一个端到端的训练有素的大型多模态模型，它连接了一个视觉编码器和LLM，用于通用的视觉和语言理解。

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

早期实验表明，LLaVA展示了令人印象深刻的多模态聊天能力，有时在未见过的图像/指令上都能输出多模态GPT-4的表现，在合成的多模态指令跟随数据集上与GPT-4相比，获得了85.1%的相对分数。

当对Science杂志进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的新的最先进的准确性。

研究人员公开了GPT-4生成的视觉指令调整的数据、模型和代码库。

多模态模型

首先厘清定义。

大型多模态模型指的就是一种基于机器学习技术的模型，能够处理和分析多种输入类型，如文本和图像。

这些模型设计用于处理更广泛的任务，并且能够理解不同形式的数据。通过将文本和图像作为输入，这些模型可以提高理解和编解释的能力，从而生成更准确和相关的回答。

人类通过视觉和语言等多种渠道与世界互动，因为每个单独的渠道在代表和传达某些世界概念方面都有独特的优势，从而有利于更好地理解世界。

而人工智能的核心愿望之一是开发一个通用的助手，能够有效地遵循多模态的视觉和语言指令，与人类的意图一致，完成各种真实世界的任务。

因此，开发者社区见证了对开发语言增强的基础视觉模型的新兴趣，在开放世界的视觉理解方面具有强大的能力，如分类、检测、分割、描述，以及视觉生成和编辑。

在这些功能中，每个任务都由一个单一的大型视觉模型独立解决，在模型设计中隐含考虑了任务指令。

此外，语言只被用来描述图像内容。虽然这允许语言在将视觉信号映射到语言语义方面发挥重要作用——这是人类交流的常见渠道。但这会导致模型通常具有固定的界面，互动性和对用户指令的适应性有限。

而大型语言模型（LLM）表明，语言可以发挥更广泛的作用：通用助手的通用界面，各种任务指令可以明确地用语言表示，并引导端到端训练有素的神经助手切换到感兴趣的任务来解决它。

例如，最近ChatGPT和GPT-4的成功，证明了这种LLM在遵循人类指令方面的能力，并激发了人们对开发开源LLM的巨大兴趣。

LLaMA就是一个开源的LLM，其性能与GPT-3相当。正在进行的工作利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力，与专有LLM相比，报告了令人印象深刻的性能。重要的是，这一行的工作是纯文本的。

在本文中，研究人员提出了视觉指令调整，这是将指令调整扩展到多模态空间的首次尝试，它为建立一个通用的视觉助手铺平了道路。具体来说，论文的主要内容包括：

多模态的指令跟随数据。一个关键的挑战是缺乏视觉语言指令-跟随数据。我们提出了一个数据改革的观点和管道，使用ChatGPT/GPT-4将图像-文本对转换为适当的指令-跟随格式。

大型多模态模型。研究人员开发了一个大型多模态模型（LMM），通过连接CLIP的开放集视觉编码器和语言解码器LaMA，并在生成的教学视觉——语言数据上对它们进行端到端的微调。实证研究验证了使用生成的数据进行LMM指令调谐的有效性，并为建立一个通用的指令跟随的视觉代理提出了实用的建议。通过GPT 4，研究小组在Science QA多模态推理数据集上取得了最先进的性能。

开源。研究小组向公众发开了以下内容：生成的多模态指令数据、用于数据生成和模型训练的代码库、模型检查点，以及一个视觉聊天演示。

成果展示

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

可以看到，LLaVA能处理各类问题，且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力，在视觉聊天方面，GPT-4相对评分85%。

而在推理问答方面，LLaVA甚至达到了新SoTA——92.53%，击败多模态思维链。

好了，本文到此结束，带大家了解了《威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多科技周边知识！

微软模型

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

这七款基于AI的工具让数据科学家如虎添翼

这七款基于AI的工具让数据科学家如虎添翼

上一篇: 这七款基于AI的工具让数据科学家如虎添翼

OpenAI前员工搞了个GPT杀手，免费使用，点击即玩

下一篇: OpenAI前员工搞了个GPT杀手，免费使用，点击即玩

评论列表

淡定的帅哥

好细啊，码住，感谢作者的这篇博文，我会继续支持！

2023-06-18 05:01:07
开朗的手链

这篇文章出现的刚刚好，老哥加油！

2023-06-03 02:32:23
拼搏的灯泡

真优秀，一直没懂这个问题，但其实工作中常常有遇到...不过今天到这，看完之后很有帮助，总算是懂了，感谢作者大大分享博文！

2023-05-30 23:08:14
忐忑的路灯

这篇文章内容真及时，太全面了，赞 ??，已收藏，关注博主了！希望博主能多写科技周边相关的文章。

2023-05-27 03:21:21
高挑的乌冬面

好细啊，已收藏，感谢大佬的这篇博文，我会继续支持！

2023-05-06 06:02:59
追寻的朋友

赞 ??，一直没懂这个问题，但其实工作中常常有遇到...不过今天到这，帮助很大，总算是懂了，感谢楼主分享技术贴！

2023-05-05 16:03:56
端庄的红牛

这篇技术贴真及时，太详细了，很有用，码住，关注作者了！希望作者能多写科技周边相关的文章。

2023-05-03 11:55:45
陶醉的世界

这篇技术文章出现的刚刚好，博主加油！

2023-04-30 01:28:01

查看更多

最新文章

科技周边 · 人工智能 | 2小时前 | 人工智能 · rag · 知识库 · AI工程实践 · 人工智能 RAG 知识库问答向量检索引用检查

AI 知识库回答跑偏怎么办：RAG 检索、重排和引用检查完整流程

419浏览收藏
科技周边 · 人工智能 | 4小时前 | 人工智能 · ai agent · 工程实践 · AI Agent 上下文管理人工确认多智能体交接摘要

AI Agent 交接跑偏怎么办：从意图检查到交接摘要一步步排查

170浏览收藏
科技周边 · 人工智能 | 1天前 | 人工智能 · 质量检查 · AI应用 · 提示词工程 · 回归测试 · 大模型应用回归测试人工复核 AI提示词评分规则上线检查

AI 提示词回归测试实战：小样本集、评分规则和上线前对比

475浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · tracing · ai agent · 可观测性 · 工具调用 · 可观测性 AI Agent Tracing 工具调用 OpenAI Agents SDK

AI Agent Tracing 实战：工具调用、护栏和人工确认怎么追踪

292浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · ai agent · 工具调用 · 权限治理 · 人工智能审计日志 AI Agent 权限分级工具调用人工确认

AI Agent 工具权限分级实战：读、写、发布三类操作怎么管

379浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · AI应用 · 结构化输出 · 内容质检 · 提示词工程 · AI 提示词结构化输出 JSON Schema 质检流水线人工兜底

AI 输出质检流水线实战：规则检查、结构化结果和人工兜底

394浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · rag · 知识库 · 工程实践 · 向量检索 · 元数据 RAG embedding 向量检索 AI知识库文档分块

AI 知识库分块实战：按标题层级切文档，减少回答跑偏

101浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · AI应用 · 工程实践 · 工具调用 · 人工智能智能体参数校验 AI工具调用 JSON Schema

AI 工具调用落地实战：JSON Schema、参数校验和人工兜底

233浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · rag · AI应用 · 向量数据库 · RAG embedding 向量检索重排序召回评估

RAG 召回评估实战：用向量检索和重排序减少答非所问

174浏览收藏
科技周边 · 人工智能 | 2星期前 | AI绘画

AI绘画工具安装与配置教程

339浏览收藏
科技周边 · 人工智能 | 2星期前 |

海螺AI语音功能测评与体验分享

260浏览收藏
科技周边 · 人工智能 | 2星期前 |

ChatGPT读不了加密PDF？先解密再上传

438浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

56次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

67次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

69次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

212次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

212次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码