34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%
今天golang学习网给大家带来了《34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~
在各种黑科技的加持下,数学推理问题成为语言模型无法回避的难题,即使是开源模型的推理性能也不够令人满意
最近,滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct.
请点击以下链接查看论文:https://arxiv.org/pdf/2309.05653.pdf
项目链接:https://tiger-ai-lab.github.io/MAmmoTH/
MathInstruct是由13个数学数据集编译而成的,其中包括6个全新的数据集,结合了思维链(CoT)和思维程序(PoT)的概念,并确保涵盖了广泛的数学领域
CoT和PoT的混合不仅可以释放工具使用的潜力,而且还允许模型针对不同的数学问题进行不同的思维过程。
因此,MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现明显优于现有的开源模型,平均准确率提高了12%至29%
在MATH(竞赛级数据集)上,MAmmoTH-7B模型的准确率达到了35%,超过了最好的开源7B模型(WizardMath)的25%。而MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果
数学推理领域新王:MAmmoTH
在数学推理任务中,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距。目前,GPT-4、PaLM-2和Claude等闭源模型在基准数据集上仍然是最先进的(sota),而其他开源模型如Llama、Falcon和OPT等则远远落后
为了弥补性能差距,研究方法主要可以分为两类:
1. 对于像Galactica、MINERVA等模型,继续使用与数学相关的网络数据对语言模型进行训练,可以提高模型在通用科学推理方面的能力,但计算成本会更高
对于拒绝采样微调(RFT)和WizardMath等方法,尽管使用特定领域数据集对模型进行微调可以提高该领域内的性能,但却无法适用于更广泛的数学推理任务
在解决数学问题时,现有方法通常会采用思维链(CoT)方法引导语言模型循序渐进地用自然语言描述来解决数学问题。
虽然在大多数数学主题下表现出很好的通用性,但在需要精确或复杂的数学计算、算法推理的问题下(如求解二次方程根,计算矩阵特征值)表现不佳。
相比之下,思维程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解释器)大大简化了数学求解过程,将计算过程卸载到外部Python解释器,以解决复杂的数学和算法推理过程(例如,用sympy求解二次方程或用numpy计算矩阵特征值)。
然而,PoT在处理更抽象的推理场景方面有所欠缺,尤其是在没有内置API的情况下,常识推理、形式逻辑和抽象代数的推理能力会更差。
方法概述
研究人员的目标是创建一个高质量且多样化的数学指令调整数据集列表
需要进行改写的内容是:1. 涵盖各个数学领域和不同的复杂度水平
通过使用更全面的数据集,可以让模型接触到更多样化的数学知识,从而提升模型的多功能性
研究人员将选择范围缩小到几个被广泛采用的高质量数据集,包括GSM8K、math、AQuA、Camel和TheoremQA.
还可以注意到,现有的数据集缺乏对大学水平的数学知识的覆盖,如抽象代数和形式逻辑,所以研究人员选择使用GPT-4来合成TheoremQA问题中的思维链(CoT)原理,利用网络上找到的数个种子样例,通过自我指导(self-instruct)创建问题和CoT的数据对。
需要进行改写的内容是:2. 混合CoT和PoT
现有的研究方法主要关注CoT,并且数据集中只包含有限的解题思路,这导致CoT和PoT的数据量严重不平衡
为了解决这个问题,研究人员使用GPT-4来增强已选定数据集的PoT解题方法。他们通过对比合成程序的执行结果和人工标注的答案,来筛选出高质量的生成数据
根据以上方法,我们最终获得了26万条指令和回复数据,涵盖了广泛的核心数学领域,包括算术、代数、概率、微积分和几何等。这些数据混合了CoT和PoT的基本原理,并提供了多种语言和多个难度级别的数据。这充分证明了数据集的高品质和独特性
需要重新写作的内容是:训练步骤
研究人员对MathInstruct中的所有子集进行了统一处理,将指令数据集的结构标准化为Alpaca模型的格式。这样一来,模型在微调阶段就不需要考虑原始数据集的格式,只需统一处理数据即可
研究人员选择了Llama-2和Code Llama作为基础模型,在7B、13B、34B和70B尺寸的模型上进行微调
实验部分
评估数据集
研究人员选择了不同数学领域下的样本,对模型的通用数学推理能力进行评估:
领域内数据集包括GSM8K,MATH,AQuA-RAT,NumGLUE;领域外数据集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵盖了小学、高中和大学水平的数学问题,部分数据集甚至包括形式逻辑和常识推理。
问题类型为开放式问题和多选题,其中开放式问题(如GSM8K、数学)采用PoT解码,因为大多数问题都可以由程序解决;多项选择题(如AQuA、MMLU)采用CoT解码。
CoT解码不需要触发词,PoT需要触发短语「让我们写个程序来解决这个问题」(Let’s write a program to solve the problem)。
实验结果
总的来说,MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均优于SoTA模型,并且在领域外(OOD)数据集上的增益要显著优于领域内(IND)数据集,展现出了该模型作为数学通才模型的潜力,甚至在几个数据集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超过了闭源模型。
在数据评估领域中,MAmmoTH模型的主要竞争对手是WizardMath和Platypus。其中,WizardMath模型的训练深度依赖于GSM8K和MATH数据集,而Platypus则通过在更广泛的文本和数学推理数据集上对LLM进行微调
相比之下,MAmmoTH在全面改进的基础上,更擅长解决复杂数学问题。与WizardMath(MATH数据的最新技术水平)相比,它的性能提升超过了25%
在领域外数据评估中,主要竞争模型依然是Platypus,不过MAmmoTH可以实现比领域内数据更高的性能提升,展现出对未知数学问题的通用能力。
MAmmoTH-7B在MMLU-Math上的CoT性能提升了9%,这一点需要特别注意。这个提升包含了许多在训练数据集中没有涵盖的主题
需要进行重新写作的内容是:对比不同的基础模型
在比较Code-Llama和Llama-2作为基础模型时,可以发现Code-Llama的效果始终优于Llama-2,尤其是在领域外数据集上。两者之间的性能差异甚至达到了5%。其中,在领域外数据集上,MAmmoTH-Coder(34B)的平均性能实际上高于MAmmoTH(70B)
研究人员认为,MAmmoTH-Coder从Code-Llama的持续代码训练中获益良多,不仅增强了PoT的能力,还提高了Llama的通用推理技巧
文中关于模型,训练的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- 宝沃中国公布破产清算财产处置公告:798件专利起拍价约64.7万元

- 下一篇
- 涉及3万条内部信息和38TB数据!微软AI团队被曝资料外泄
-
- 科技周边 · 人工智能 | 15分钟前 |
- AI剪辑靠谱吗?全自动视频剪辑测评
- 143浏览 收藏
-
- 科技周边 · 人工智能 | 17分钟前 |
- 豆包AI教程!5分钟生成10w+梗图模板
- 317浏览 收藏
-
- 科技周边 · 人工智能 | 29分钟前 |
- Gemini支持量子通信模拟吗?
- 441浏览 收藏
-
- 科技周边 · 人工智能 | 38分钟前 |
- AI图文视频剪辑教程全攻略
- 178浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | 图像处理 手动优化 AI裁剪 MediBangPaint 选区调整
- MediBangPaintAI裁剪教程:快速精准技巧
- 381浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- DeepSeekAPI负载均衡技巧解析
- 454浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- Claude聊天记录备份与恢复教程
- 285浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- AI生成视频字幕时间轴与镜头配图方法
- 321浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- AI音乐工具如何搭配豆包创作?一文讲透
- 193浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 | 图片处理 手动调整 智能识别 AI裁剪 HornilStylePix
- HornilStylePixAI图片裁剪教程
- 433浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 514次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 1068次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 1018次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 1051次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 1065次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 1045次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览