带“眼睛”的ChatGPT应用来了!150亿参数多模态大模型加持,读图聊天样样全能
哈喽!今天心血来潮给大家带来了《带“眼睛”的ChatGPT应用来了!150亿参数多模态大模型加持,读图聊天样样全能》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!
在许多人的印象里,ChatGPT是个无所不能的“怪物”。
它可以写诗,可以编代码,甚至可以直接生成长篇论文……此外,ChatGPT还极富情商、表现欲十足,只需数轮对话,就足以征服众人。
但ChatGPT真的是无所不能的吗?
作为聊天机器人,ChatGPT拥有出色的语言理解能力和文本处理能力,但受制于训练模型,ChatGPT并不支持图片对话。试想一下,在平日与好友进行聊天时,如果无法发送图片,那自然会失去部分乐趣。
而在国内,有这么一家AI研发团队,他们推出的“元乘象Chatlmg”应用可以准确识别图片并能与用户进行聊天,就好比给ChatGPT加上一双“眼睛”,看懂文字的同时,也能完美识别图片。
日前,镁客网从元乘象研发团队获悉,“元乘象Chatlmg”最近刚刚上线,关注微信公众号“元乘象”即可体验该应用。(注:受限于算力,初期为邀请制访问方式)
那么,“元乘象Chatlmg”的使用体验究竟如何,它的图片识别功能是否真的神奇呢?在产品上线前夕,镁客网进行了一次全方位的测评总结。
图 | 元乘象Chatlmg Logo
看图说话?这款ChatGPT应用很神奇
进入“元乘象Chatlmg”,可以看到该应用的界面十分简洁明晰——位于下方的文字对话框,对称式的头像排版,各种元素组合成我们常见的聊天软件界面。
而在该应用的左下方,可以看到一个显眼的“上传图片”按钮。
目前,该应用图片上传支持三种方式,分别是照片图库、拍照和文件导入,一次上传一张。
恰逢三八妇女节,镁客网也选了两样物品交给“元乘象Chatlmg”来帮忙判定一下是否适合,一张是从搜索引擎上下载的口红图片,另一张是通过手机现拍的便签本图片:
可以看到,“元乘象Chatlmg”精准识别出了两张图片中的产品,并且还延伸出一些其他描述,比如记事本上的小熊很可爱、口红放在白色背景前等等。
与此同时,对于这两份物品是否适合送给女孩子做礼物,也给出了自己的判断,还会提出礼物是否适合需要依据接收者喜好的理性建议。
在“元乘象Chatlmg”给出回复后,我们又追问了一句:
嗯,建议非常中肯,上下文理解的逻辑也做到了连贯。
此外,镁客网也上传了一些其他图片让“元乘象Chatlmg”来识别。
比如这个:
又比如这个:
还有这些:
可以看出,“元乘象Chatlmg”的识别能力还是相当精准,并能通过文字形式来描述所看到的图片内容。
对比基于纯文本互动的ChatGPT,除了写诗歌、撰写文章这类基本互动,多了双“眼睛”的“元乘象Chatlmg”显然又挖掘出几项新功能,物品识别正是其重要功能之一。
之后,随着数据量的不断扩增以及产品的不断优化,镁客网也期待“元乘象Chatlmg”能给我们带来更多出彩的表现。
百亿参数大模型加持,未来将持续升级
本质上,ChatGPT是一款聊天机器人产品,在GPT-3大模型的帮助下,提供了文本生成的能力。而ChatGPT之所以强悍,也恰恰得益于GPT-3。
作为OpenAI开发的自然语言处理模型,其身上有着太多话题点。早在ChatGPT推出之前,GPT-3就已经在AI领域成功出圈。
据悉,该模型达到1750亿参数,一次训练就需调用上万块GPU,花费近460万美元的成本。如此疯狂的“吞金能力”,自然能支撑起ChatGPT这样的疯狂应用。
那么ChatGPT还有什么不足之处吗?答案是有的!
据元乘象研发团队表示,“元乘象Chatlmg”搭载了自研的百亿级别参数多模态大模型,相当于给ChatGPT装上“眼睛”,使其能够更像人一样去对话。
所谓多模态,在AI领域中往往指感知信息,如图像、文本、语音等协同,帮人工智能更准确地理解外部世界。
也正是在多模态大模型的加持下,“元乘象Chatlmg”拥有了看懂图像的能力。
据元乘象研发团队介绍,目前该元乘象AI大模型参数规模大概150亿;数据方面目前主要是图文对数据、VQA数据等。而在训练过程中,该模型放开尽量少的可学习参数,从而保证在有限算力上的高效训练。
在问及该模型的未来发展路径时,元乘象研发团队向镁客网透露,除了当下的图文互动外,未来该大模型还会把图片生成的能力结合进来,这样在回答的时候也能回复自己生成的图像,让对话变得更生动。
另外,该模式也会加入包含更多模态,如视频、音频等,甚至与数字人等技术结合,开发出更生动立体的形象。
可以想象,在元乘象百亿参数多模态大模型的加持下,我们与聊天机器人的对话将变得更像真人口吻,AI技术在未来带给我们的惊喜也会越来越多。
中国AI厂商狂奔,国产ChatGPT还有多远?
就在本月举行的十四届全国人大一次会议“部长通道”上,科技部部长王志刚在谈到ChatGPT时,赞扬其为AI及相关行业带来的进步。
与此同时,由ChatGPT引发的各种讨论,也被各位代表、委员们带进了两会。
事实上,早在2017年我国将发展人工智能上升为国家战略前,AI就已是全国两会上的“常客”。如今ChatGPT火爆全球,不禁让人们再次发问:中国的AI行业该如何抓住ChatGPT的时代潮流?
借由新品发布的机会,镁客网也与元乘象研发团队负责人高一钊博士就此问题进行了一番交流探讨。
在他看来,国内对于AI大模型的建设需要有长远的布局和工作的连续性,才能开发出真正创新的技术。
当我们回顾ChatGPT的“发家史”便可以发现,想做好一款AI大模型并非易事,背后是长期的资金投入以及算力技术迭代,另外还要考虑训练数据的优化、计算能耗的降低等方方面面。
换句话说,想做好一款类ChatGPT应用,并非通过一次简单的“百米冲刺”即可完成,而是需要耐心跑完一场“万米长跑”,才能进入群雄逐鹿的“决赛圈”。
但就目前的发展现状来看,国内大厂的AI大模型仍处在研发阶段,能像“元乘象Chatlmg”一样走到应用层面的团队仍非常少见——首先国内AI大模型的研发普遍起步较晚,人才缺口严重,其次是中文语境下大模型的训练难度更大,耗费的时间远超英文。
这些问题本该需要“耐心”去解决,但随着上一波AI投资热潮的冷却,许多公司被迫缩减预算,最终导致相关AI业务发展陷入了瓶颈。
相比之下,元乘象研发团队则走得相对顺利,一方面,该团队在AI应用领域的长期深耕探索,另一方面也得益于他们在多模态预训练模型上正确判断与前瞻性,最终在整个团队的坚持下,终在ChatGPT时代迎来了“开花结果”。
谈及AI企业未来的探索之道时,高博士也给出了自己的一些看法:“在生态搭建方面,国内可以促进开源,毕竟人多力量大。”
结语
自去年发布以来,ChatGPT早已从一种“现象级产品”进化为一种“科技符号”,国内科技大厂争先恐后推出类ChatGPT产品,希望在这场竞赛中摘得所谓的“胜利”。
同时,伴随ChatGPT的火热,国内AI行业再次掀起新一轮新品热潮,“元乘象Chatlmg”正是在这期间脱颖而出。
从“元乘象Chatlmg”应用的测评来看,其体验感已经非常友好,甚至拥有“图像识别”这种ChatGPT所不具备的功能。
当然,作为早期版本的“元乘象Chatlmg”,在一些细节方面仍有欠缺,但相信在元乘象研发团队努力与坚持下,未来国产ChatGPT应用也能惊艳行业。
以上就是《带“眼睛”的ChatGPT应用来了!150亿参数多模态大模型加持,读图聊天样样全能》的详细内容,更多关于ChatGPT的资料请关注golang学习网公众号!

- 上一篇
- 如何在 Windows Media Player 中更改视频的播放速度

- 下一篇
- 我是如何从头开始写一篇顶级论文的
-
- 科技周边 · 人工智能 | 6小时前 |
- 用豆包A/生成的表情包如何赚钱
- 369浏览 收藏
-
- 科技周边 · 人工智能 | 7小时前 |
- 理想L系列智能焕新版5月8日发布L7/8/9齐上新
- 368浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- DeepSeek+Triop:AI手绘到3D建模全程解析
- 136浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 奔驰纯电新车曝光:仅800V快充或慢充
- 319浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 全新日产帕拉丁黑武士版上市,17.28万起
- 396浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 1-2月乘用车摄像头装机量破1300万增14.6%
- 350浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 谷歌升级Gemini2.5Pro,强化多模态AI
- 263浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 即梦ai添加时间戳教程即梦ai日期水印设置攻略
- 448浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 |
- 免费AI证件照生成网站全方位测评
- 229浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 |
- 4月车市火爆:以旧换新激增,品牌销量创新高
- 182浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 16次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 30次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 32次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 37次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 37次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览