手机运行微软小模型胜过27亿参数的大模型
来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习科技周边相关编程知识。下面本篇文章就来带大家聊聊《手机运行微软小模型胜过27亿参数的大模型》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!
微软 CEO 纳德拉在 Ignite 大会上宣布,上个月,Phi-2 小尺寸模型将完全开源。这一举措将显著改进常识推理、语言理解和逻辑推理的性能
今天,微软公布了 Phi-2 模型的更多细节以及全新的提示技术 promptbase。这个仅 27 亿参数的模型在大多数常识推理、语言理解、数学和编码任务上超越了 Llama2 7B、Llama2 13B、Mistral 7B,与 Llama2 70B 的差距也在缩小(甚至更好)。
同时,小尺寸的 Phi-2 可以在笔记本电脑、手机等移动设备上运行。纳德拉表示,微软非常高兴将一流的小语言模型(SLM)和 SOTA 提示技术向研发人员分享。
微软在今年六月发表了一篇名为《只需教科书》的论文,使用了仅包含7B个标记的“教科书质量”数据来训练了一个包含1.3B个参数的模型,即phi-1。尽管数据集和模型规模比竞争对手小几个数量级,但是phi-1在HumanEval中的一次通过率达到了50.6%,在MBPP中的准确率达到了55.5%。phi-1证明了即使是高质量的“小数据”也能够使模型具备良好的性能
微软随后在九月份发表了《只需教科书II:Phi-1.5技术报告》,对高质量的“小数据”潜力进行了进一步的研究。文中提出了Phi-1.5,该参数适用于QA问答、代码等场景,可达到13亿的规模
如今 27 亿参数的 Phi-2,再次用「小身板」给出了卓越的推理和语言理解能力,展示了 130 亿参数以下基础语言模型中的 SOTA 性能。得益于在模型缩放和训练数据管理方面的创新, Phi-2 在复杂的基准测试中媲美甚至超越了 25 倍于自身尺寸的模型。
微软表示,Phi-2 将成为研究人员的理想模型,可以进行可解释性探索、安全性改进或各种任务的微调实验。微软已经在 Azure AI Studio 模型目录中提供了 Phi-2,以促进语言模型的研发。
Phi-2 关键亮点
语言模型规模增加到千亿参数,的确释放了很多新能力,并重新定义了自然语言处理的格局。但仍存在一个问题:是否可以通过训练策略选择(比如数据选择)在较小规模的模型上同样实现这些新能力?
微软提供的解决方案是使用Phi系列模型,通过训练小型语言模型来实现与大型模型类似的性能。Phi-2在两个方面打破了传统语言模型的缩放规则
首先,训练数据的质量在模型性能中起着至关重要的作用。微软通过专注于「教科书质量」的数据,将这一认知发挥到了极致。他们的训练数据包含了专门创建的综合数据集,教给模型常识性知识和推理,例如科学、日常活动和心理等。此外,他们还通过精心挑选的网络数据来进一步扩充自己的训练语料库,这些网络数据经过教育价值和内容质量的筛选
其次,微软使用创新技术进行扩展,从 13 亿参数的 Phi-1.5 开始,将知识逐渐嵌入到了 27 亿参数的 Phi-2 中。这种规模化知识迁移加速了训练收敛,并显著提升了 Phi-2 的基准测试分数。
以下是Phi-2和Phi-1.5之间的比较图,除了BBH(3-shot CoT)和MMLU(5-shot)之外,所有其他任务都是使用0-shot进行评估
训练细节
Phi-2 是一个基于 Transformer 的模型,其目标是预测下一个词。它在合成数据集和网络数据集上进行了训练,使用了 96 块 A100 GPU,并花费了 14 天的时间
Phi-2 是一个基础模型,没有通过人类反馈强化学习 (RLHF) 进行对齐,也没有进行指令微调。尽管如此,与经过调整的现有开源模型相比,Phi-2 在毒性和偏见方面仍然表现得更好,如下图 3 所示。
实验评估
首先,该研究在学术基准上对 Phi-2 与常见语言模型进行了实验比较,涵盖多个类别,包括:
- Big Bench Hard (BBH) (3 shot with CoT)
- 常识推理(PIQA、WinoGrande、ARC easy and challenge、SIQA)、
- 语言理解(HellaSwag、OpenBookQA、MMLU(5-shot)、SQuADv2(2-shot)、BoolQ)
- 数学(GSM8k(8 shot))
- 编码(HumanEval、MBPP(3-shot))
Phi-2模型仅有27亿个参数,却在各种聚合基准上性能超越了7B和13B的Mistral模型和Llama2模型。值得一提的是,与庞大的25倍Llama2-70B模型相比,Phi-2在多步骤推理任务(即编码和数学)方面表现更出色
此外,尽管尺寸较小,但 Phi-2 的性能可以媲美最近由谷歌发布的 Gemini Nano 2
由于许多公共基准可能会泄漏到训练数据中,研究团队认为测试语言模型性能的最佳方法是在具体用例上对其进行测试。因此,该研究使用多个微软内部专有数据集和任务对 Phi-2 进行了评估,并再次将其与 Mistral 和 Llama-2 进行比较,平均而言,Phi-2 优于 Mistral-7B,Mistral-7B 优于 Llama2 模型(7B、13B、70B)。
研究团队还对常见的研究社区提示进行了广泛测试。Phi-2的表现与预期相符。例如,对于一个用于评估模型解决物理问题能力的提示(最近用于评估Gemini Ultra模型),Phi-2给出了以下结果:
文中关于模型,数据的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《手机运行微软小模型胜过27亿参数的大模型》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 英特尔发布全新酷睿Ultra系列,微软Windows 11支持列表已公布

- 下一篇
- 索尼ZV-E10迎来强大继任者:ZV-E10 II 预计2024年春季面市
-
- 科技周边 · 人工智能 | 8小时前 |
- 阿里开源实时数字人对话—OpenAvatarChat
- 419浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 宝马加速推出全球限量M车型,瞄准中日市场
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | 新能源汽车 国产化 第三代半导体 SiC车规级功率半导体 扬杰科技
- 扬杰科技10亿元SiC车规级模块封装项目开工
- 296浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 保时捷911Turbo测试车曝光混动马力或破700匹
- 483浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 | QD-OLED 量子点技术 QD-LCD MiniLED MacBookPro
- 2024年量子点薄膜和扩散板收入猛增42%
- 197浏览 收藏
-
- 科技周边 · 人工智能 | 11小时前 |
- 沃尔沃电动卡车销量破5000,特斯拉Semi量产难
- 334浏览 收藏
-
- 科技周边 · 人工智能 | 14小时前 |
- 奇瑞2025年Q1出口突破25万辆,中国车企榜首
- 357浏览 收藏
-
- 科技周边 · 人工智能 | 17小时前 |
- 加州大学与Adobe推出多模态融合新框架X-Fusion
- 202浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 12次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 12次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 12次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 17次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 29次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览