PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
小伙伴们有没有觉得学习科技周边很有意思?有意思就对了!今天就给大家带来《PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!
近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题,而且还是麻省理工数学课程难度的数学题!
在这项新研究中,研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题,并通过小样本学习自动解决数据集中 81%的数学课程问题,并且 Codex 在这些任务的表现上达到了人类水平。
原文链接:https://www.pnas.org/doi/10.1073/pnas.2123433119
这项研究的出现,颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出,Codex 之所以能做到实现这样的能力,正是因为团队进行了一大创新,过去那些不成功的研究只使用了基于文本的预训练,而此次现身的 Codex 神经网络不仅要基于文本进行预训练,并且还对代码进行了微调。
研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程,从七门课程中随机抽取 25 个问题:MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和 计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。
同时,研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH,用 MATH 来检测OpenAI Codex 的能力,MATH 从6大数学板块:初级代数,代数,计数和概率,中级代数,数论,和初级微积分中各抽取15个问题。
图注:研究中使用的课程问题数据集和MATH基准测试
研究显示,Codex 解决了问题数据集和 MATH 数据集中的 265 个问题,其中有 213 个是自动解决的。
1 创新何所在
在 Transformer 发布后,基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务,包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练,所以这些模型基本上不能解决数学问题,GPT-3就是一个典型例子。
后来,通过小样本学习(few-shot learning)和思维链 (Chain-of-thought, CoT) 提示,GPT-3 的数学推理能力得到了提高;然而,在没有代码的情况下,即便有小样本学习和 CoT 提示, GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。
过去关于解数学题的研究,可能在相对简单的数学水平上有一定成绩。举个例子,基于协同训练输出来验证或预测表达式树的技术,比如MAWPS 和 Math23k,能够以超过 81% 的准确率解决小学级别的数学问题,但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树,能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案,并且产生了过拟合,不能推广到其他课程。
而这项工作的最大创新点之一就是,不仅对Codex 这种Transformer 模型进行了文本上的预训练,还在代码上进行了微调,使得其可以生成大规模解决数学问题的程序。
研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中,仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。
相比之下,使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络(OpenAI Codex code-davinci-002)合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。
而使用相同的神经网络 Codex 再加上少样本学习,便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题,最后通过手动提示解决。
小样本学习方式的补充,则是这项研究的第二大创新点。从上图中可以看出,当零样本学习无法解答问题时,便会使用(问题,代码)对(pair)执行小样本学习:
1) 使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题;
2) 使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题;
3) 将最相似的问题及其相应的代码作为小样本问题的示例。
图注:4种方式的自动解题率对比
上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出,橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现,基本上在每个数学领域上的表现都强于其他3种方式。
这项研究的第三大创新点,便是提供了一条解决数学问题和解释为何如此解答的管道,下图展示了MIT 5门数学课程中管道的执行流程。
以 18.01 单变量微积分问题为例,给定一个问题和自动生成的前缀“使用 SymPy”,Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后,程序会自动提示再次输入 Codex,从而生成生成的代码解释。
2 问题解决之后
除了解决数学问题和解释答案,Codex 也被用于为每门课程生成新问题。
为了评估生成的问题水平,团队在参加过这些课程或者同水平课程的MIT学生中做了调查,主要是比较机器生成的问题和人工编写问题的质量和难度。
在MIT的6门课程中,每门选择5个人工编写问题和5个模型生成问题混合起来并且随机呈现。对于 60 个问题中的每一个问题,参与调查的学生都需要回答 3 个调查问题:
1)你认为这个问题是人工编写的还是机器生成的?
2)你认为这个问题适合还是不适合特定课程?
3 ) 在 1(最简单)和 5(最难)之间,你认为这个问题的难度级别是多少?
在收回的问卷中,学生调查结果总结如下:
- 机器生成和人工编写的问题难度相似。
- 人工编写的问题比机器生成的问题更适合课程。
- 人工编写的答案很难被识别错,而机器生成的问题被学生认为既可能是机器生成的,也可能是人工编写的。
机器生成的问题已经能让学生无法辨别,说明Codex 在生成新内容方面已达到了人类的表现水平。
但是,该模型也有无法解决的问题,比如,如果问题以图像或其他非文本形式出现,它就无法回答;带有需要证明的解决方案的问题,或者计算上难以解决的问题,比如分解非常大的素数,该模型也无法解决。不过,最后一种问题也不应出现在任何数学课程作业中,因为就算是真人学生也没法回答。
终于介绍完啦!小伙伴们,这篇关于《PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~golang学习网公众号也会发布科技周边相关知识,快来关注吧!

- 上一篇
- 开局打爆谷歌,微软ChatGPT版必应亲测:强到发指!

- 下一篇
- Apple 在 15.4 beta 4 版本中为 HomePod 上的 Siri 添加了荷兰语语音识别功能
-
- 痴情的未来
- 很棒,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢老哥分享博文!
- 2023-06-16 00:17:17
-
- 老实的汉堡
- 这篇技术贴真是及时雨啊,细节满满,写的不错,码住,关注老哥了!希望老哥能多写科技周边相关的文章。
- 2023-05-25 23:01:23
-
- 昏睡的爆米花
- 太细致了,收藏了,感谢作者大大的这篇文章内容,我会继续支持!
- 2023-05-12 11:25:52
-
- 科技周边 · 人工智能 | 13分钟前 |
- LongPortMCP—长桥集团首推券商新品
- 121浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 通用汽车CEO2024年薪酬近3000万,涨幅达6%
- 438浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 | 控制面板 ccleaner 卸载程序 AI豆包 RevoUninstaller
- 电脑AI豆包删除攻略及详细步骤
- 118浏览 收藏
-
- 科技周边 · 人工智能 | 2小时前 |
- 2025Q1中国车市占33%,国际品牌大跌
- 255浏览 收藏
-
- 科技周边 · 人工智能 | 4小时前 |
- 问界M8大定破6万:35.98万起,华为ADS3.0加持
- 194浏览 收藏
-
- 科技周边 · 人工智能 | 13小时前 | LGDisplay 蓝色磷光OLED 功耗降低 混合双栈串联OLED
- LG蓝色磷光OLED面板首发,手机功耗降15%
- 367浏览 收藏
-
- 科技周边 · 人工智能 | 15小时前 |
- Linuxautofs自动挂载详解与实现攻略
- 159浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 7次使用
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 26次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 21次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 26次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 26次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览