当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

来源:51CTO.COM 2023-09-19 19:51:07 0浏览 收藏

今天golang学习网给大家带来了《34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%》,其中涉及到的知识点包括等等,无论你是小白还是老手,都适合看一看哦~有好的建议也欢迎大家在评论留言,若是看完有所收获,也希望大家能多多点赞支持呀!一起加油学习~

在各种黑科技的加持下,数学推理问题成为语言模型无法回避的难题,即使是开源模型的推理性能也不够令人满意

最近,滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct.

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

请点击以下链接查看论文:https://arxiv.org/pdf/2309.05653.pdf

项目链接:https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct是由13个数学数据集编译而成的,其中包括6个全新的数据集,结合了思维链(CoT)和思维程序(PoT)的概念,并确保涵盖了广泛的数学领域

CoT和PoT的混合不仅可以释放工具使用的潜力,而且还允许模型针对不同的数学问题进行不同的思维过程。

因此,MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现明显优于现有的开源模型,平均准确率提高了12%至29%

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

在MATH(竞赛级数据集)上,MAmmoTH-7B模型的准确率达到了35%,超过了最好的开源7B模型(WizardMath)的25%。而MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果

数学推理领域新王:MAmmoTH

在数学推理任务中,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距。目前,GPT-4、PaLM-2和Claude等闭源模型在基准数据集上仍然是最先进的(sota),而其他开源模型如Llama、Falcon和OPT等则远远落后

为了弥补性能差距,研究方法主要可以分为两类:

1. 对于像Galactica、MINERVA等模型,继续使用与数学相关的网络数据对语言模型进行训练,可以提高模型在通用科学推理方面的能力,但计算成本会更高

对于拒绝采样微调(RFT)和WizardMath等方法,尽管使用特定领域数据集对模型进行微调可以提高该领域内的性能,但却无法适用于更广泛的数学推理任务

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

在解决数学问题时,现有方法通常会采用思维链(CoT)方法引导语言模型循序渐进地用自然语言描述来解决数学问题。

虽然在大多数数学主题下表现出很好的通用性,但在需要精确或复杂的数学计算、算法推理的问题下(如求解二次方程根,计算矩阵特征值)表现不佳。

相比之下,思维程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解释器)大大简化了数学求解过程,将计算过程卸载到外部Python解释器,以解决复杂的数学和算法推理过程(例如,用sympy求解二次方程或用numpy计算矩阵特征值)。

然而,PoT在处理更抽象的推理场景方面有所欠缺,尤其是在没有内置API的情况下,常识推理、形式逻辑和抽象代数的推理能力会更差。

方法概述

研究人员的目标是创建一个高质量且多样化的数学指令调整数据集列表

需要进行改写的内容是:1. 涵盖各个数学领域和不同的复杂度水平

通过使用更全面的数据集,可以让模型接触到更多样化的数学知识,从而提升模型的多功能性

研究人员将选择范围缩小到几个被广泛采用的高质量数据集,包括GSM8K、math、AQuA、Camel和TheoremQA.

还可以注意到,现有的数据集缺乏对大学水平的数学知识的覆盖,如抽象代数和形式逻辑,所以研究人员选择使用GPT-4来合成TheoremQA问题中的思维链(CoT)原理,利用网络上找到的数个种子样例,通过自我指导(self-instruct)创建问题和CoT的数据对。

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

需要进行改写的内容是:2. 混合CoT和PoT

现有的研究方法主要关注CoT,并且数据集中只包含有限的解题思路,这导致CoT和PoT的数据量严重不平衡

为了解决这个问题,研究人员使用GPT-4来增强已选定数据集的PoT解题方法。他们通过对比合成程序的执行结果和人工标注的答案,来筛选出高质量的生成数据

根据以上方法,我们最终获得了26万条指令和回复数据,涵盖了广泛的核心数学领域,包括算术、代数、概率、微积分和几何等。这些数据混合了CoT和PoT的基本原理,并提供了多种语言和多个难度级别的数据。这充分证明了数据集的高品质和独特性

需要重新写作的内容是:训练步骤

研究人员对MathInstruct中的所有子集进行了统一处理,将指令数据集的结构标准化为Alpaca模型的格式。这样一来,模型在微调阶段就不需要考虑原始数据集的格式,只需统一处理数据即可

研究人员选择了Llama-2和Code Llama作为基础模型,在7B、13B、34B和70B尺寸的模型上进行微调

实验部分

评估数据集

研究人员选择了不同数学领域下的样本,对模型的通用数学推理能力进行评估:

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

领域内数据集包括GSM8K,MATH,AQuA-RAT,NumGLUE;领域外数据集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵盖了小学、高中和大学水平的数学问题,部分数据集甚至包括形式逻辑和常识推理。

问题类型为开放式问题和多选题,其中开放式问题(如GSM8K、数学)采用PoT解码,因为大多数问题都可以由程序解决;多项选择题(如AQuA、MMLU)采用CoT解码。

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

CoT解码不需要触发词,PoT需要触发短语「让我们写个程序来解决这个问题」(Let’s write a program to solve the problem)。

实验结果

总的来说,MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均优于SoTA模型,并且在领域外(OOD)数据集上的增益要显著优于领域内(IND)数据集,展现出了该模型作为数学通才模型的潜力,甚至在几个数据集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超过了闭源模型。

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

在数据评估领域中,MAmmoTH模型的主要竞争对手是WizardMath和Platypus。其中,WizardMath模型的训练深度依赖于GSM8K和MATH数据集,而Platypus则通过在更广泛的文本和数学推理数据集上对LLM进行微调

相比之下,MAmmoTH在全面改进的基础上,更擅长解决复杂数学问题。与WizardMath(MATH数据的最新技术水平)相比,它的性能提升超过了25%

34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%

在领域外数据评估中,主要竞争模型依然是Platypus,不过MAmmoTH可以实现比领域内数据更高的性能提升,展现出对未知数学问题的通用能力。

MAmmoTH-7B在MMLU-Math上的CoT性能提升了9%,这一点需要特别注意。这个提升包含了许多在训练数据集中没有涵盖的主题

需要进行重新写作的内容是:对比不同的基础模型

在比较Code-Llama和Llama-2作为基础模型时,可以发现Code-Llama的效果始终优于Llama-2,尤其是在领域外数据集上。两者之间的性能差异甚至达到了5%。其中,在领域外数据集上,MAmmoTH-Coder(34B)的平均性能实际上高于MAmmoTH(70B)

研究人员认为,MAmmoTH-Coder从Code-Llama的持续代码训练中获益良多,不仅增强了PoT的能力,还提高了Llama的通用推理技巧

文中关于模型,训练的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《34B参数量超越GPT-4!「数学通用大模型」MAmmoTH开源:平均准确率最高提升29%》文章吧,也可关注golang学习网公众号了解相关技术文章。

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
宝沃中国公布破产清算财产处置公告:798件专利起拍价约64.7万元宝沃中国公布破产清算财产处置公告:798件专利起拍价约64.7万元
上一篇
宝沃中国公布破产清算财产处置公告:798件专利起拍价约64.7万元
涉及3万条内部信息和38TB数据!微软AI团队被曝资料外泄
下一篇
涉及3万条内部信息和38TB数据!微软AI团队被曝资料外泄
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    14次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    14次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    27次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    26次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    53次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码