当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 教ChatGPT学会看图的方法来了

教ChatGPT学会看图的方法来了

来源：51CTO.COM 2023-04-15 11:06:08 0浏览收藏

积累知识，胜过积蓄金银！毕竟在##column_title##开发的过程中，会遇到各种各样的问题，往往都是一些细节知识点还没有掌握好而导致的，因此基础知识点的积累是很重要的。下面本文《教ChatGPT学会看图的方法来了》，就带大家讲解一下知识点，若是你对本文感兴趣，或者是想搞懂其中某个知识点，就请你继续往下看吧~

2022年流行“文生图”模型，那2023年流行什么？

机器学习工程师Daniel Bourke的答案是：反过来！

这不，一个最新发布的“图生文”模型在网上爆火，其优秀的效果引发众多网友纷纷转发、点赞。

不仅是基础的“看图说话”功能，写情诗、讲解剧情、给图片中对象设计对话等等，这个AI都拿捏得稳稳的！

比如，当你在网上刷到诱人的美食时，只需把图片发给它，它就会立马识别出需要的食材和做菜步骤：

甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。

当被问到如何才能从图片中倒着的房子里离开，AI的回答是：侧面不是有滑梯嘛！

这只新AI名为BLIP-2 （Bootstrapping Language-Image Pre-training 2），目前代码已开源。

最重要的是，和以前的研究不同，BLIP-2使用的是一种通用的预训练框架，因此可以任意对接自己的语言模型。

有网友已经在畅想把接口换成ChatGPT后的强强组合了。

作者之一Steven Hoi更是放话：BLIP-2未来就是“多模态版ChatGPT”。

那么，BLIP-2神奇的地方还有哪些？一起往下看。

理解能力一流

BLIP-2的玩法可以说非常多样了。

只需提供一张图片，你就可以与它对话，让它看图讲故事、推理、生成个性化文本等各种要求都能满足。

举个例子，BLIP-2不仅能轻松识别图片中的景点是长城，还能介绍出长城的历史：

中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。

给它一张电影剧照，BLIP-2不光知道出自哪，还知道故事的结局是be：泰坦尼克号沉没，男主淹死。

在对人类神态的拿捏上，BLIP-2同样把握得非常准确。

被问到这张图片中的男人是什么表情，他为什么这样时，BLIP-2的回答是：他害怕那只鸡，因为它正朝他飞来。

更神奇的是，在许多开放性问题上，BLIP-2的表现也很出色。

让它根据下面的图片写一句浪漫的话：

它的回答是这样的：爱情就像日落，很难预见它的到来，但当它发生时，它是如此的美丽。

这不光理解能力满分，文学造诣也相当强啊！

让它给图片中的两只动物生成一段对话，BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定：

猫: 嘿，狗狗，我能骑在你背上吗？
狗: 当然，为什么不呢？
猫: 我已经厌倦了在雪地里行走。

那么，如此强大的理解能力背后，BLIP-2究竟是怎么做到的？

多项视觉语言任务上实现新SOTA

考虑到大规模模型的端到端训练成本越来越高，BLIP-2使用的是一种通用且高效的预训练策略：

从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。

这也意味着，每个人都可以选择自己想用的模型接入使用。

而为了弥补了模态之间的差距，研究者提出了一个轻量级的查询Transformer。

该Transformer分两个阶段进行预训练：

第一阶段从冻结图像编码器引导视觉语言表示学习，第二阶段将视觉从冻结的语言模型引导到语言生成学习。

为了测试BLIP-2的性能，研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。

最终结果显示，BLIP-2在多项视觉语言任务上都实现了SOTA。

其中，BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%，且训练参数还减少了54倍。

而且显而易见的是，更强的图像编码器或更强的语言模型都会产生更好的性能。

值得一提的是，研究者在论文最后也提到，BLIP-2还存在一个不足，那就是缺乏上下文学习能力：

每个样本只包含一个图像-文本对，目前还无法学习单个序列中多个图像-文本对之间的相关性。

研究团队

BLIP-2的研究团队来自Salesforce Research。

第一作者为Junnan Li，他也是一年前推出的BLIP的一作。

目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学，博士毕业于新加坡国立大学。

研究领域很广泛，包括自我监督学习、半监督学习、弱监督学习、视觉-语言。

以下是BLIP-2的论文链接和GitHub链接，感兴趣的小伙伴们可以自取～

论文链接：https://arxiv.org/pdf/2301.12597.pdf

GitHub链接：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

参考链接：[1]https://twitter.com/mrdbourke/status/1620353263651688448

[2]https://twitter.com/LiJunnan0409/status/1620259379223343107

今天带大家了解了的相关知识，希望对你有所帮助；关于科技周边的技术知识我们会一点点深入介绍，欢迎大家关注golang学习网公众号，一起学习编程~

ChatGPT 看图

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

微软可能会为 Windows 11 任务管理器带来新的搜索栏

微软可能会为 Windows 11 任务管理器带来新的搜索栏

上一篇: 微软可能会为 Windows 11 任务管理器带来新的搜索栏

苹果为秋季准备“历史上最广泛的新硬件产品”

下一篇: 苹果为秋季准备“历史上最广泛的新硬件产品”

查看更多

最新文章

科技周边 · 人工智能 | 5小时前 | 人工智能

节假日自动问候：OpenClaw微信节日营销文案定时群发教程

493浏览收藏
科技周边 · 人工智能 | 5小时前 | Shutterstock

Shutterstock图片怎么用于网站_Shutterstock网站配图下载与版权须知

147浏览收藏
科技周边 · 人工智能 | 5小时前 |

Pika怎么做动画视频静态图转动态图参数多少【动画】

106浏览收藏
科技周边 · 人工智能 | 5小时前 |

在 WorkBuddy 中禁用不常用的预置技能以节省资源

382浏览收藏
科技周边 · 人工智能 | 5小时前 | 通义千问千问千问APP

图表生成：千问表格Agent目前支持直接生成数据透视表吗？（功能边界探讨）

443浏览收藏
科技周边 · 人工智能 | 5小时前 |

Grok3怎么生成技术文档_Grok3编写规范技术文档教程

290浏览收藏
科技周边 · 人工智能 | 6小时前 |

本地部署DeepSeek-R1推理版_7B模型实测

179浏览收藏
科技周边 · 人工智能 | 6小时前 |

DeepSeek V4怎么清洗销售线索_意向客户自动分级打标【线索】

292浏览收藏
科技周边 · 人工智能 | 6小时前 |

医保AI监管系统！反诈骗技术服务，社保领域新刚需！

328浏览收藏
科技周边 · 人工智能 | 6小时前 |

DeepSeek V4系统提示词无效_system prompt位置与格式调整【系统】

241浏览收藏
科技周边 · 人工智能 | 6小时前 |

龙虾机器人(clawdbot)官方网站访问入口 clawdbot网页端操作指南

122浏览收藏
科技周边 · 人工智能 | 6小时前 | ChatGPT

2026年大模型硬件门槛_最低配置与推荐配置清单

306浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

4464次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

4810次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

4690次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

6485次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

5061次使用

查看更多

相关文章

GPT-4王者加冕！读图做题性能炸天，凭自己就能考上斯坦福

2023-04-25 501浏览
单块V100训练模型提速72倍！尤洋团队新成果获AAAI 2023杰出论文奖

2023-04-24 501浏览
ChatGPT 真的会接管世界吗？

2023-04-13 501浏览
VR的终极形态是「假眼」？Neuralink前联合创始人掏出新产品：科学之眼！

2023-04-30 501浏览
实现实时制造可视性优势有哪些？

2023-04-15 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码