开源的端侧模型2B优于Mistral-7B的参数性能
从现在开始,努力学习吧!本文《开源的端侧模型2B优于Mistral-7B的参数性能》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
千元机也能本地运行。
近期,人们在优化和部署方面取得了成果,伴随着大模型向大体量方向发展。
2月1日,面壁智能联合清华NLP实验室在北京正式发布了旗舰端侧大模型「面壁MiniCPM」。这一新一代大模型被誉为「性能小钢炮」,不仅能够直接在终端部署,还具备同等水平最强的多模态能力。这将为用户提供更快速、更高效的智能应用体验。
面壁智能最新推出的 MiniCPM 2B 模型具有仅有 20 亿的参数量,并通过使用 1T token 的精选数据进行训练。与 2018 年发布的 BERT 模型相比,这个模型在参数量上相当,但面壁智能在性能优化和成本控制方面进行了极致的努力,使得该模型能够在性能上实现了「越级打怪」的效果。
面壁智能联合创始人、CEO 李大海将新模型与业内知名开源大模型 Mistral-7B 进行了对比,MiniCPM 2B 在多个主流评测榜单上性能全面超越了后者。

与微软近期提出的「小模型」Phi-2 相比,MiniCPM 也有很大优势。
李大海指出,面壁智能的新模型在能力方面具备了越级实现的潜力,可以实现13B、30B甚至40B模型的能力。使用最接近用户体验的评测榜单MT-Bench进行评测时,MiniCPM获得了7分的成绩(相比之下,GPT-4-Turbo获得了9分)。
在现场,面壁智能还展示了 MiniCPM 的实际应用效果。尽管参数量较小,但该模型具备大模型应有的文本翻译、角色扮演等多种能力,并且拥有丰富的知识。即使是难度较高的代码解释任务,该模型也能应对自如。
因为能够部署在端侧,在面临一些突发事件时,MiniCPM 也可以给人们提供及时帮助:

最近,各家手机厂商纷纷提出了端侧大模型,在把大语言模型压缩到较小体量之后,我们就能用它连接更多场景,在算力、内存受限的情况下获得更高程度的智能。相比之下,面壁智能提出的新技术更加轻便,可适用于更低配置,或较早期型号的手机。
据面壁智能介绍,MiniCPM 端侧模型经历了 Int4 量化后压缩了 75% 体量,只占用 2G 内存,与此同时性能几乎没有损失,因此已在各类常见型号的手机上实现了跑通。
因为支持移动端 CPU 的推理,MiniCPM 可以很大程度上节约使用成本。面壁智能为我们算了一笔账:一台搭载骁龙 855 的手机使用 MiniCPM,一块钱电费可处理 170 万 token,这个价格仅为云端运行的 Mistral-Medium 的 1%。
除了端侧模型,面壁智能还展示了其在多模态大模型方面的探索,并开源了 12B 参数量的 OmniLMM。在发布会上,面壁智能演示了 Gemini 发布时同款的石头剪刀布 demo。用英文向 AI 提问:我正在玩什么游戏?大模型会回答:石头剪子布。
与此同时,OmniLMM 也可以认出人类的手势,还能告诉你如果要赢应该出什么。
OmniLMM 还可以理解很多图片中的信息并进行推理,如地标建筑、电视台的台标、人们组织的活动等内容。
看来,我们距离真正多模态的大模型,以及新形态的应用已经不远了。
面壁智能大模型极致性能的背后,源于该公司长期以来的技术积累。自 2021 年,面壁智能就构建了高效的技术栈,集中在 Infra、算法和数据方法论三个方向。其中,自研的 BMTrain 高效训练框架至关重要。
在算法层面上,面壁智能也积累了模型沙盒体系,把大模型从炼丹提升到了实验科学的程度,在理论上不断寻找超参数和规模的最优解,如最优的 batch size、所有尺寸模型通用的超参数配置。
目前,面壁智能已积累了大量高质量的数据。在昨天的发布后,面壁智能开源了自身的新一代大模型系列(包含 MiniCPM-SFT / DPOMiniCPM-V & MiniCPM-SFT / DPO-int4),以及训练 MiniCPM 两个阶段的数据配方以供行业参考。
开源地址(含技术报告):
MiniCPM GitHub:https://github.com/OpenBMB/MiniCPM
OmniLMM GitHub:https://github.com/OpenBMB/OmniLMM
面壁智能源于清华 NLP 实验室,是在国内较早开展大模型研究的团队之一,其在 2018 年发布了全球首个基于知识指导的预训练模型 ERNIE。2022 年 8 月开始公司化运作的面壁智能,去年经历了两轮融资,其推出的应用「面壁露卡」也拿到了网信办第二批大模型备案。
目前,面壁智能已经组建起 100 余人的科研团队,其中 80% 人员来自清北,平均年龄 28 岁。
面壁智能正在构建大模型 + Agent 的双引擎战略,希望能构建出更小规模、更快速度、更低成本的解决方案。
今年,面壁智能还将加快速度迭代新技术。「我们会在春节之后不断发布 MiniCPM 的新版本,性能还会进一步提升。我们要给大家春节的休息时间,」刘知远表示。
终于介绍完啦!小伙伴们,这篇关于《开源的端侧模型2B优于Mistral-7B的参数性能》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 小偷闯大模型?上交大模型「人类可读指纹」以保护你的参数

- 下一篇
- 西南交大团队多尺度图神经网络框架在代谢数据集上表现优异,为药物研发提供强大支持
-
- 科技周边 · 人工智能 | 34分钟前 |
- 问界M8大定破6万:35.98万起,华为ADS3.0加持
- 194浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | LGDisplay 蓝色磷光OLED 功耗降低 混合双栈串联OLED
- LG蓝色磷光OLED面板首发,手机功耗降15%
- 367浏览 收藏
-
- 科技周边 · 人工智能 | 10小时前 |
- Linuxautofs自动挂载详解与实现攻略
- 159浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 |
- 小米汽车SU7Ultra助力,营收曾超手机
- 247浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 |
- 浙大与阿里推出具身交互新模型——EmbodiedReasoner
- 328浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 3次使用
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 26次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 21次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 24次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 23次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览