普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练
最近发现不少小伙伴都对科技周边很感兴趣,所以今天继续给大家介绍科技周边相关的知识,本文《普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练》主要内容涉及到等等知识点,希望能帮到你!当然如果阅读本文时存在不同想法,可以在评论中表达,但是请勿使用过激的措辞~
数学,作为科学的基石,一直以来都是研究和创新的关键领域。
最近,普林斯顿大学等七家机构联合发布了一个专门用于数学的大语言模型LLEMMA,性能媲美谷歌Minerva 62B,并公开了其模型、数据集和代码,为数学研究带来了前所未有的机会和资源。

论文地址:https://arxiv.org/abs/2310.10631
数据集的链接地址为:https://huggingface.co/datasets/EleutherAI/proof-pile-2
项目地址:https://github.com/EleutherAI/math-lm 需要进行重写的是:
LLEMMA承袭了Code Llama的基础,在Proof-Pile-2上进行了预训练。
Proof-Pile-2,一个庞大的混合数据集,包含着550亿token的信息,其中包括科学论文、富含数学内容的网页数据以及数学代码。
这个数据集的一部分,Algebraic Stack,更是汇集了来自17种语言的11B数据集,覆盖了数值、符号和数学证明。

拥有7亿和34亿个参数,在MATH基准测试中表现卓越,超越了所有已知的开源基础模型。

在与Google Research开发的专门用于数学的封闭模型相比,参数量只有Minerva 62B一半的条件下,Llemma 34B获得了几乎相同的性能。
Llemma超越了Minerva在参数基础上解决问题的性能,它利用计算工具和形式定理证明,为数学问题的解决提供了无限的可能性

它能够方便地使用Python解释器和形式证明器,进一步展示了它在解决数学问题方面的能力

由于对形式证明数据的特别重视,Algebraic Stack成为了第一个展示出少样本定理证明能力的开放基础模型

图
研究人员还开放共享了LLEMMA的所有训练数据和代码。与以往的数学模型不同,LLEMMA是一个开源的、开放共享的模型,为整个科研社区敞开大门。
研究人员试图量化模型记忆效果,结果令人惊讶的是,他们发现Llemma对于训练集中出现的问题并没有变得更加准确。由于代码和数据是公开的,研究人员鼓励其他人复制并扩展他们的分析

训练数据和实验配置
LLEMMA是一个专门用于数学的大型语言模型,它在Code Llama的基础上继续在Proof-Pile-2上进行预训练。Proof-Pile-2是一个包含科学论文、含有数学内容的网页数据和数学代码的混合数据集,包含了550亿个标记
AlgebraicStack的代码部分包含了11B的数据集,其中包括17种语言源代码,覆盖数值、符号和形式数学,并已公开发布

LLEMMA的每个模型都是由Code Llama进行初始化的。Code Llama模型是一个仅包含解码器的语言模型,它是从Llama 2进行初始化的
作者对Code Llama模型在Proof-Pile-2上进行了进一步的训练,使用标准的自回归语言建模目标。对于7B模型,作者进行了200B个标记的训练,而对于34B模型,作者进行了50B个标记的训练
评估方法和实验结果
作者使用Proof-Pile-2对Code Llama进行继续预训练,并且在MATH和GSM8k等多个数学问题解决任务上对LLEMMA进行few-shot评估。
研究人员发现LLEMMA在这些任务上都有显著的提升,并且能够适应不同的问题类型和难度。
LLEMMA 34B在极高难度的数学题中展示了比其他开放式基础模型更强大的数学能力

在数学基准测试上,LLEMMA在Proof-Pile-2上的持续预训练改善了五个数学基准测试的few-shot性能。
在GSM8k上,LLEMMA 34B的改进比Code Llama高出20个百分点,在MATH上高出13个百分点。而且,LLEMMA 7B也优于相似大小的专有的Minerva模型,这证明了在Proof-Pile-2上进行预训练能有效提高大模型的数学解题能力

在解决数学问题时,利用计算工具如Python等,LLEMMA在MATH+Python和GSM8k+Python任务上都比Code Llama更出色
在使用MATH和GSM8k数据集时,LLEMMA的性能优于没有使用工具时的性能

在数学证明任务中,LLEMMA表现出色
非正式到正式证明的任务目标是在给定一个正式陈述、一个非正式的LATEX陈述和一个非正式的LATEX证明的情况下,生成一个正式证明,然后通过证明助手进行验证。
正式到正式证明则是通过生成一系列证明步骤(策略)来证明一个正式陈述。结果表明,LLEMMA在Proof-Pile-2上的持续预训练改善了这两个正式定理证明任务的few-shot性能。

LLEMMA不仅拥有令人瞩目的性能、还开放了革命性的数据集、展现了惊人的问题解决能力。
开源共享的精神,标志着数学界进入了一个新的时代。数学的未来在这里,而我们每一个数学爱好者、研究者和教育者都将从中受益。
LLEMMA的出现为我们提供了前所未有的工具,让数学问题的解决变得更加高效和创新。
此外,开放共享的理念也将促进全球科研社区更加深入的合作,共同推动科学的进步。
今天关于《普林斯顿开源34B数学模型:参数减半,性能媲美谷歌Minerva,使用550亿Token进行专业数据训练》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于模型,数据的内容请关注golang学习网公众号!
如何使用Python的upper()函数将字符串转换为大写
- 上一篇
- 如何使用Python的upper()函数将字符串转换为大写
- 下一篇
- 顺丰控股:10 月度业绩下滑,营收为207.44亿元,同比减少0.83%,业务量为9.51亿票
-
- 科技周边 · 人工智能 | 1小时前 |
- 爆款AI视频生成器免费入口推荐
- 117浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- Kling物理模拟教程:真实交互设置详解
- 477浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- Deepseek满血版与AIPRM对话优化对比
- 217浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- AIOverviews生成教程与实用技巧
- 458浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- ChatGPT国内注册方法及最新流程详解
- 246浏览 收藏
-
- 科技周边 · 人工智能 | 3小时前 |
- 豆包网页版入口与使用教程
- 329浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 文心一言对话生成器官网入口
- 395浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3211次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3425次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3454次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4563次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3832次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

