李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始
今日不肯埋头,明日何以抬头!每日一句努力自己的话哈哈~哈喽,今天我将给大家带来一篇《李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始》,主要内容是讲解等等,感兴趣的朋友可以收藏或者有更好的建议在评论提出,我都会认真看的!大家一起进步,一起学习!
自微软3月初发布多模态模型 Kosmos-1 以来,一直在测试和调整 OpenAI 的多模态模型,并将其更好地兼容微软自有产品。
果不其然,趁着GPT-4发布之际,微软也正式摊牌,New Bing早就已经用上GPT-4了。
ChatGPT用的语言模型是 GPT-3.5,在谈到GPT-4比前一个版本强大在哪里时,OpenAI称,虽然这两个版本在随意的谈话中看起来很相似,但「当任务的复杂性达到足够的阈值时,差异就会出现」,GPT-4更可靠、更有创意,并且能够处理更细微的指令。
王者加冕?关于GPT-4的八点观察
1. 再度惊艳,强过人类
如果说GPT-3系列模型向大家证明了AI能够在一个模型里做多个任务,指明实现AGI的路径,GPT-4在很多任务上已经达到人类水平(human-level),甚至比人类表现更好。GPT-4在很多专业的学术考试上已经超越90%的人类,比如在模拟律师考试中,分数在应试者的前10%左右。对此,各类中小学、大学和专业教育该如何应对?
2. 「科学」炼丹
虽然OpenAI此次并未公布具体参数,但可以猜到GPT-4模型一定不小,模型太多就意味着高额训练成本。与此同时,训练模型也很像「炼丹」,需要做很多实验,如果这些实验都是在真实环境下去训练,高昂成本压力不是谁都能承受的。
为此,OpenAI别出心裁搞了一个所谓的「predictable scaling」,简言之就是用万分之一的成本来预测各个实验的结果(loss和human eval)。如此一来,就把原本大模型「碰运气」的炼丹训练升级为「半科学」的炼丹。
3. 众包评测,一举双得
这次非常「取巧」地提供了一个open source的OpenAI Evals,用众包方式开放给各位开发者或爱好者,邀请大家使用Evals来测试模型,同时笼络开发者生态。这一方式,既让大家有参与感,又能让大家免费帮忙评估提高系统,OpenAI直接获得问题和反馈,一石二鸟。
4. 工程补漏
这次还发布了一个System Card,是一个开放的「打补丁」工具,可以发现漏洞减少语言模型的「胡说八道」问题。系统打了各种各样的补丁做预处理和后处理,后面还会开放代码把打补丁能力众包给大家,OpenAI未来也许可以让大家帮它一起做。这标志着LLM终于从一个优雅简单的next token prediction任务进入了各种messy的工程hack了。
5. 多模态
自上周德国微软透露GPT-4是多模态后,大众可谓万众期待。
GPT-4千呼万唤始出来,被誉为「堪比人脑」的多模态其实跟目前很多论文阐述的多模态能力并无太多差别,主要区别就是把文本模型的few-shot和逻辑链(COT)结合进来,这里有个前提是需要一个基础能力很好的文本LLM再加多模态,会产生不错的效果。
6. 有计划地放出「王炸」
按照OpenAI演示GPT-4的demo视频里的说法,GPT-4 早在去年8月就已完成训练,但今天才发布,剩下的时间都在进行大量测试和各种查漏补缺,以及最重要的去除危险内容生成的工作。
当大家还沉浸在ChatGPT惊人的生成能力之时,OpenAI已经搞定GPT-4,这波谷歌工程师估计又要熬夜追赶了?
7. OpenAI不再Open
OpenAI在公开的论文里完全没有提及任何模型参数和数据规模(网传GPT-4参数已达100万亿),也没有任何技术原理,对此解释说是为了普惠大众,怕大家学会了怎么做GPT-4之后会用来做恶,触发一些不可控的事情发生,个人完全不认同这种此地无银的做法。
8. 集中力量办大事
论文除了各种「炫技」,还特别用了三页把所有为GPT-4不同系统有贡献人员都列出来,粗略估计应该已经超过百人,再次体现OpenAI内部团队成员众志成城、高度协作的状态。以此对比其他几家的团队作战能力,在众志成城这方面是不是差得有点远?
目前多模态大模型已经成为整个AI大模型发展的趋势和重要方向,而在这场大模型AI「军备竞赛」中,谷歌、微软、DeepMind等科技巨头都积极推出多模态大模型(MLLM)或大模型(LLM)。
开启新一轮军备竞赛:多模态大模型
微软:Kosmos-1
微软在3月初发布拥有16亿参数的多模态模型 Kosmos-1,网络结构基于 Transformer 的因果语言模型。其中,Transformer 解码器用作多模态输入的通用接口。
除了各种自然语言任务,Kosmos-1 模型能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像字幕、简单的数学方程式、OCR 和带描述的零样本图像分类。
谷歌:PaLM-E
3月初,谷歌和柏林工业大学的研究团队推出目前最大的视觉语言模型——PaLM-E,参数量高达5620亿(PaLM-540B+ViT-22B)。
PaLM-E是一个仅有解码器的大模型,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。模型通过加一个编码器,模型可以将图像或感知数据编码为一系列与语言标记大小相同的向量,将此作为输入用于下一个token预测,进行端到端训练。
DeepMind:Flamingo
DeepMind在去年4月推出Flamingo视觉语言模型,模型将图像、视频和文本作为提示(prompt),输出相关语言,只需要少量的特定例子既能解决很多问题,无需额外训练。
通过交叉输入图片(视频)和文本的方式训练模型,使模型具有 few-shot 的多模态序列推理能力,完成「文本描述补全、VQA / Text-VQA」等多种任务。
目前,多模态大模型已显示更多应用可能性,除了相对成熟的文生图外,人机互动、机器人控制、图片搜索、语音生成等大量应用逐一出现。
综合来看,GPT-4不会是AGI,但多模态大模型已经是一个清晰且确定的发展方向。建立统一的、跨场景、多任务的多模态基础模型会成为人工智能发展的主流趋势之一。
雨果说「科学到了最后阶段,便遇上了想象」,多模态大模型的未来或许正超越人类的想象。
好了,本文到此结束,带大家了解了《李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

- 上一篇
- Windows 11 的多个桌面无法正常工作?这是做什么

- 下一篇
- 如何在 MacOS Ventura 上更改墙纸
-
- 科技周边 · 人工智能 | 7小时前 |
- 腾讯混元3Dv2.5新版3D模型震撼发布
- 307浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- Llama4震撼发布,Meta开源多模态AI霸主
- 417浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 | 深蓝汽车
- 深蓝汽车4月销量2.01万辆,同比增58%
- 170浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 16次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 13次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 12次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 16次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 17次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览