当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士

AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士

来源:51CTO.COM 2023-04-26 09:25:33 0浏览 收藏

哈喽!大家好,很高兴又见面了,我是golang学习网的一名作者,今天由我给大家带来一篇《AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士》,本文主要会讲到等等知识点,希望大家一起学习进步,也欢迎大家关注、点赞、收藏、转发! 下面就一起来看看吧!

高数考不好,不知道是多少人的噩梦。

图片

如果说你高数考得还不如AI好,是不是就更难以接受了?

没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。

图片

这件事最近还登上了微博热搜。

图片

△“仅”得81分,对AI的期待也太高了吧

现在,谷歌那边又传来了最新大消息:

不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!

看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。

图片

谷歌这个最新AI做题家,参加了四门考试。

数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们,以前最好成绩只有6.9分……

但这一次,谷歌新AI却刷到了50分,比计算机博士还高。

综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。

这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。

图片

小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一。

图片

最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。

值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:

我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高。

图片

看到这里,有的家长已经坐不住了。

如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!

图片

在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。

图片

那么,这是怎么做到的?

AI狂读arXiv上200万篇论文

新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。

而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练,新增的数据集有三部分:

主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。

图片

通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。

图片

但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。

与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。

缺点,是可能出现AI用错误的步骤得到正确答案的情况。

优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。

到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。

图片

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。

图片

最后还有Majority Voting多数表决方法,也是今年3月才发表的。

让AI多次回答同一个题目,选择答案中出现频率最高的。

图片

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。

图片

说了这么多,Minerva具体都能做出哪些题目?

对此谷歌也开放出了样例集,一起来看一下。

数理化生全能,连机器学习都会

数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。

图片

对于应用题,可以自己列出方程式并做简化。

图片

甚至还可以推导证明。

图片

物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。

图片

生物和化学上,Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?

图片

以下哪种是放射性元素?

图片

以及天文学:为什么地球拥有很强的磁场?

图片

在机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。

图片

……

不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。

图片

除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。

图片

经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。

图片

总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。

图片

有的网友想到,加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法,它的准确率或许还可以再提高?

图片

不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。

图片

还有网友提出,既然它可以做题,那么能不能反过来出题?

图片

事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。

图片

总之现在的情况,除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

图片

老师们也盼着有一天能用AI出卷子。

图片

论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址:https://minerva-demo.github.io/

相关论文:Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171

参考链接:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622​

以上就是《AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士》的详细内容,更多关于AI,OpenAI,MIT的资料请关注golang学习网公众号!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
上一篇
超越PaLM!北大硕士提出DiVeRSe,全面刷新NLP推理排行榜
Wayformer: 一个实现运动预测简单有效的注意网络
下一篇
Wayformer: 一个实现运动预测简单有效的注意网络
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    16次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    15次使用
  • 可图AI图片生成:快手可灵AI2.0引领图像创作新时代
    可图AI图片生成
    探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
    43次使用
  • MeowTalk喵说:AI猫咪语言翻译,增进人猫情感交流
    MeowTalk喵说
    MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
    44次使用
  • SEO标题Traini:全球首创宠物AI技术,提升宠物健康与行为解读
    Traini
    SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
    38次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码