HuggingFace教你怎样做出SOTA视觉模型
一分耕耘,一分收获!既然打开了这篇文章《HuggingFace教你怎样做出SOTA视觉模型》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!
前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。
其他从业者在震撼之余,也再次开始思考怎么追赶这些超级模型了。
在这篇HuggingFace和法国索邦大学的一篇论文中,总结出了构建视觉大模型的关键经验,给开发者指明了一条路。
图片
这些经验涵盖了模型架构选择、训练方法、训练数据等多个方面。作者在多方比较之后给出了详尽的总结,核心要点包括:
- 想把视觉大模型搞好,架构的选择很重要。
- 语言模型对整体表现的影响,比视觉模块更大。
- 采用分阶段预训练策略,更有利于构建模型能力。
- 训练数据应包含多种类型,并注意之间的比例平衡。
可以说,HF能够打造出同规模SOTA的视觉模型Idefics2,背后依靠的都是这些经验。
Idefics2基于Mistral-7B打造,整体拥有8B的参数量,可以准确识别出手写字体。
图片
这是一篇很好的专业人士评价称,这是一篇很好的调查报告,对视觉模型开发者很有帮助,但同时也提醒说不要当成万金油来看。
图片
当然也有人打趣说,什么架构数据都是浮云,有GPU才是最关键的。
图片
倒也有些道理,不过玩笑归玩笑,还是来看看HuggingFace都带给了我们哪些经验。
来自SOTA模型开发实战
HuggingFace论文中的这些经验,来自于视觉模型Idefics2的开发过程。
与前一代Idefics1和Flamingo等同规模前SOTA相比,Idefics2在多个数据集上表现优异,甚至还超过了更大的13B模型。
同时,和在COCO数据集上略胜于Idefics2的MM1相比,Idefics2在每张图上消耗的token大幅减少。
图片
从Idefics2的开发实战当中,HuggingFace给我们带来的经验至少包含以下几个方面:
- backbone和架构的选择
- 训练方法和策略
- 数据多样性和处理策略
语言模型对整体表现影响更大
当前的视觉大模型主要都采用语言模型+视觉编码器的形式进行开发,作者对二者给整体表现带来的影响分别进行了评估。
结果显示,语言模型的质量比视觉模型更重要。
在相同参数量的情况下,使用更好的语言模型(如将Llama-7B替换为Mistral-7B),能够显著提升视觉大模型在下游任务上的性能。
而升级视觉编码器带来的提升则较为有限,因此在需要权衡时最好的做法是优先选择更强的语言模型。
图片
当然这不意味着升级视觉编码器没有作用,在条件允许的情况下,选用更好的视觉编码器也能带来一定的性能提升。
此外还应当注意选择要与下游任务相匹配,例如在文本识别任务上,应使用支持可变分辨率的视觉编码器;如果任务对推理速度要求很高,可以选择更轻量级的模型。
以及在实际应用中,推理速度和内存占用也是需要权衡的因素,Idefics2选用的SigLIP-SO400M就在性能和效率之间取得了很好的平衡。
根据需求选择架构类型
关于架构的选择,这篇论文讨论了常见的完全自回归和交叉注意力这两种。
完全自回归架构通过自回归方式生成每个输出,考虑了整个序列的依赖关系;
后者则允许模型在处理一种模态时动态地关注另一种模态的不同部分,实现更灵活的模态间交互。
在具体工作中,作者发现哪种架构表现更好取决于预训练的backbone是否被冻结。
(简单说,若预训练backbone参与正式训练过程则为非冻结,不参与则为冻结)
若未被冻结,则完全自回归架构的表现更优,反之则是交叉注意力架构更好。
图片
至于是否需要对backbone进行冻结,就要看开发者需求的侧重点了。
在资源有限的条件下,如果需要高性能、对延迟高度敏感,选择冻结更为合适;
如果希望模型具有更高的灵活性和适应性,则应选择非冻结的训练方式。
具体到Idefics2,选择了不冻结backbone,因此相应地采用了完全自回归架构。
图片
训练阶段的经验
选择好适当的架构固然重要,训练过程同样也必不可少,在Idefics2的训练过程之中,作者总结出了这些经验供我们参考:
一是整体上采用分阶段的预训练策略,初始阶段使用较低分辨率的图像,随后引入更高分辨率的PDF文档,这种做法可以逐步构建模型的多种能力。
二是使用Learned Pooling替代直接将图像特征送入语言模型,这可以大幅减少图像token数量,显著提升训练和推理效率,并且还带来了性能的提升。
三是数据增强,一种方法是在训练时将图像切分成多个子图像送入模型,可以在推理时用计算时间换取更强的性能,这在文本识别等任务上尤为有效,不过并非所有图片都需要这样处理。
四是在指令微调阶段使用更多元的数据和任务,可以提升模型的泛化和鲁棒性。
此外为了稳定训练,当预训练的单模态backbone参与训练(非冻结)时,作者还使用了LoRA技术来适配预训练参数。
数据的多样性和处理策略
除了训练过程本身,所选用的数据也会对模型的表现造成重大影响。
从收集阶段开始,就应注意要选择多种类型的数据,如Idefics2就使用的数据就包括三类——图文对齐的文档(如网页)、图像-文本对(如图片标题),以及带OCR标注的PDF文档。
对于各类数据所占的比例,也应根据实际需要进行适当平衡,而不是简单等分。
至于数据规模,则是在条件允许的情况下多多益善,当然应当注意过滤掉低质量数据。
当然收集只是获得训练数据的一个步骤,想把模型训练好,还需要进行一定的加工处理。
对不同类型的数据采用不同的预处理和增强策略,比如对于OCR数据,使用更高分辨率的图片是必要的,其他数据则可以使用较低分辨率。
这其中需要注意的是,处理图像时要保留原始的宽高比和分辨率,可以在提高模型适应性的同时大幅节省训练和推理的计算开销。
如果你认为这些经验对你有所启发,可以读读原论文了解更多详情,也欢迎在评论区交流你的开发经验。
以上就是《HuggingFace教你怎样做出SOTA视觉模型》的详细内容,更多关于模型,视觉,SOTA的资料请关注golang学习网公众号!

- 上一篇
- 替代MLP的KAN,被开源项目扩展到卷积了

- 下一篇
- golang框架与其他语言框架的比较?
-
- 科技周边 · 人工智能 | 7小时前 | LGDisplay 蓝色磷光OLED 功耗降低 混合双栈串联OLED
- LG蓝色磷光OLED面板首发,手机功耗降15%
- 367浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- Linuxautofs自动挂载详解与实现攻略
- 159浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 小米汽车SU7Ultra助力,营收曾超手机
- 247浏览 收藏
-
- 科技周边 · 人工智能 | 12小时前 |
- 浙大与阿里推出具身交互新模型——EmbodiedReasoner
- 328浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 26次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 21次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 23次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 23次使用
-
- Brev AI
- 探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
- 25次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览