连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数
怎么入门科技周边编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数》,涉及到,有需要的可以收藏一下
大模型的卷,已经不睡觉都赶不上进度了......
这不,微软亚研院刚刚发布了一个多模态大型语言模型(MLLM)—— KOSMOS-1。
论文地址:https://arxiv.org/pdf/2302.14045.pdf
论文题目Language Is Not All You Need,还得源于一句名言。
文中有这么一句话,「我语言的局限,就是我世界的局限。——奥地利哲学家Ludwig Wittgenstein」
那么问题来了......
拿着图问KOSMOS-1「是鸭还是兔」能搞明白吗?这张有100多年历史的梗图硬是把谷歌AI整不会了。
1899年,美国心理学家Joseph Jastrow首次使用「鸭兔图」来表明感知不仅是人们所看到的,而且是一种心理活动。
现在,KOSMOS-1便能将这种感知和语言模型相结合。
-图中是什么?
-像一只鸭子。
-如果不是鸭子,那是什么?
-看起来更像兔子。
-为什么?
-它有兔子的耳朵。
这么一问,KOSMOS-1真有点像微软版的ChatGPT了。
不仅如此,Kosmos-1还能理解图像、文本、带有文本的图像、OCR、图像说明、视觉QA。
甚至IQ测试也不在话下。
「宇宙」无所不能
Kosmos来源希腊一词cosmos,有「宇宙」之意。
据论文介绍,最新Kosmos-1模型是一个多模态大型语言模型。
其主干是一个基于Transformer的因果语言模型,除了文本之外,其他模态,如视觉、音频都可以嵌入模型。
Transformer解码器用作多模态输入的通用接口,因此它能感知一般模态,进行上下文学习,并遵循指令。
Kosmos-1在语言和多模态任务上取得了令人印象深刻的表现,无需进行微调,其中包括带有文字指示的图像识别、视觉问答和多模态对话。
如下是Kosmos-1生成一些例子式样。
图片解释、图片问答、网页问题回答,简单数字公式,以及数字识别。
那么,Kosmos-1是在哪些数据集上进行预训练的呢?
训练所用的数据库,包括文本语料库、图像-字幕对、图像和文本交叉数据集。
文本语料库取自The Pile和Common Crawl(CC);
图像-字幕对的来源为English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;
文本交叉数据集的来源是Common Crawl snapshot。
数据库有了,接下来就是对模型进行预训练了。
MLLM组件有24层、2,048个隐藏维度、8,192个FFN和32个注意力头头,产生了大约1.3B的参数。
为了保证优化的稳定性,采用Magneto初始化;为了更快地收敛,图像表示是从一个预先训练好的具有1024个特征维度的CLIP ViT-L/14模型获取的。在训练过程中,图像被预处理成224×224分辨率,CLIP模型的参数除了最后一层均被冻结。
KOSMOS-1的参数总量约为16亿。
为了使KOSMOS-1更好地与指令保持一致,对其进行了只用语言的指令调整 [LHV+23, HSLS22],即用指令数据继续训练模型,该指令数据是仅有的语言数据,与训练语料库混合。
该调优过程是按照语言建模的方式进行的,选取的指令数据集为Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]。
结果显示,指令跟随能力的提高可以跨模式转移。
总之,MLLM可以从跨模态迁移中获益,将知识从语言迁移到多模态,反之亦然;
5大类10个任务,都拿捏了
一个模型好不好使,拿出来溜溜就知道了。
研究团队从多角度进行实验来评价KOSMOS-1的性能,包括5大类十项任务:
1 语言任务(语言理解、语言生成、无OCR的文本分类)
2 多模态转移(常识推理)
3 非语言推理(IQ测试)
4 感知-语言任务(图像说明、视觉问答、网页问答)
5 视觉任务(零样本图像分类、带描述的零样本图像分类)
无OCR的文本分类
这是一种不依赖于光学字符识别(OCR)的专注于文本和图像的理解任务。
KOSMOS-1对HatefulMemes和对Rendered SST-2测试集的准确率均高于优于其他模型。
而且Flamingo明确提供OCR文本到提示中,KOSMOS-1并没有访问任何外部工具或资源,这展示了KOSMOS-1阅读和理解渲染的图像中的文本的内在能力。
IQ测试
瑞文智力测试是评估非语言的最常用测试之一。
KOSMOS-1在没有进行微调时准确率比随机选择提高了5.3%,经过微调后则提高了9.3%,表明其具有感知非语言环境中的抽象概念模式的能力。
这是首次有模型能够完成零样本Raven测试,证明了MLLMs通过将感知与语言模型结合起来进行零样本非言语推理的潜力。
图像说明
KOSMOS-1在COCO和Flickr30k测试中的零样本性能均表现优秀,相比其他模型,其得分更高,但采用的参数量更小。
在少样本性能测试中,得分随着k值增大有所增加。
零样本图像分类
给定一个输入图像,并将该图像与提示 「The photo of the」连接起来。然后,输入模型以获得图像的类别名称。
通过在ImageNet[DDS+09]上评估该模型,在有约束和无约束的条件下,KOSMOS-1的图像归类效果都明显优于GIT[WYH+22],展现了完成视觉任务的强大能力。
常识推理
视觉常识推理任务要求模型理解现实世界中日常物体的属性,如颜色、大小和形状,这些任务是具有挑战性的,因为它们可能需要比文本中更多的关于物体属性的信息。
结果显示,KOSMOS-1在尺寸和颜色方面的推理能力都明显好于LLM模型。这主要是因为KOSMOS-1具备多模态迁移能力,从而能够将视觉知识运用到语言任务中,而不必像LLM那样必须依靠文本知识和线索来推理。
对于微软Kosmos-1,网友称赞道,未来5年,我可以看到一个高级机器人浏览网络,并仅通过视觉方式基于人类的文本输入来工作。真是有趣的时代。
本篇关于《连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

- 上一篇
- 2023年计算机视觉的现状:机遇与挑战并存

- 下一篇
- IDC公布2023年全球IT行业十大预测
-
- 科技周边 · 人工智能 | 3分钟前 |
- 即梦ai动态背景添加教程场景切换功能解析
- 273浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- DeepSeek与Teams深度融合,微软生态使用攻略
- 210浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- DeepSeek与Teams深度融合,微软生态使用攻略
- 460浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- DeepSeek秒制高赞梗图,小红书涨粉秘籍,3步解锁流量密码!
- 237浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 零门槛硬件配置,DeepSeek功能全解析
- 220浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 法拉第未来新车疑似极越01,外观内饰神似?
- 238浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 轻松搞定通灵义码,解决常见问题
- 388浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 豆包AI爆款秘诀!三步打造百万播放职场图
- 331浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- 即梦ai云端同步教程备份恢复全攻略
- 235浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 53次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 55次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 77次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 62次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 73次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览