当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

来源:机器之心 2024-06-21 22:24:46 0浏览 收藏

在科技周边实战开发的过程中,我们经常会遇到一些这样那样的问题,然后要卡好半天,等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?》,聊聊,希望可以帮助到正在努力赚钱的你。

机器之能报道
编辑:杨文
玩梗、看病、耍心眼、做数学题,「新王」Claude 3.5能力真那么玄乎?

它来了,它来了,它带着 Claude 3.5 Sonnet 走来了!

蛰伏三个月,就在昨晚,OpenAI 的「劲敌」Anthropic 上新了,推出新一代模型 ——

Claude 3.5 Sonnet!

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

这款大模型有啥独到之处?

首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。

它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

此外,它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。

总之,按官方介绍,Claude 3.5 Sonnet 是迄今为止最智能的模型,在多个方面吊打 GPT-4o。

话说到这份上,那我们就不客气了,直接让 Claude 3.5 Sonnet 和 GPT-4o 对决,孰优孰劣实力说话。


第一局:心眼子练习

日常生活中,总会遇到一些尴尬的场面。

例如,饭局上,你帮领导盛饭,领导接过后,说:“盛这么多,喂猪呢?” 这种情况下,高情商者会如何应对?

我们把这个问题丢给这两个大模型。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

它们是懂拍马屁的。

Claude 3.5 一口气给了 5 个示例,不过第 2 句「我眼神不好使,把您当成我们单位的顶梁柱了」,这是拍马蹄子上了吧。

GPT-4o 就更懂「人情世故」了,「看您身材保持得这么好,我可得向您请教减肥秘籍」,这马屁拍的是恰到好处啊。

值得一提的是,Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

用户可直接在原始提示词上进行编辑修改,而不用一遍遍复制粘贴。


第二局:根据菜肴生成菜谱

我们上传了一张「西红柿炒鸡蛋」的图片,分别让这俩大模型介绍一下制作流程。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

它们对于这道经典的中国菜颇有心得,从配料到步骤一应俱全,最有意思的是,它俩懂得中国人做菜的精髓「少许」,也都强调加点糖平衡酸度。

论做菜,两个大模型不相上下。


第三局:做数学题

官方给出的评估表中,GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 是 71.1%。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

我们从 2024 年新高考 I 卷中摘录了两道题目,一道是选择题,一道是解答题,分别以图片的形式「投喂」给这两个大模型。

第一道是送分题,正确答案是 A。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

这两个大模型「心有灵犀」,不仅给出了正确答案,还给出了详细的解题步骤。

我们又将解答题第一题交给他们,还让它们给出解题过程。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

正确答案是:B=3/π。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

其实,这道题目算是最基础的题目,但俩大模型「一顿操作猛如虎」,最后给出了错误答案。

更搞笑的是,这错误答案也不是凭空出来的,而是经过了一连串的推理,连犯的错都一个样。

对于数学能力,这俩大模型半斤八两。


第四局:玩网络热梗

今年,AI 视频领域遍地开花,不仅闯入新的「踢馆者」—— 可灵、Luma、即梦等,曾经的 AI 视频「扛把子」Runway 也「王者归来」。

由此,网友制作了这张梗图,来调侃如今各大 AI 视频应用的江湖地位。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

我们分别向两家大模型上传这张梗图,并输入提示词「这张图是什么意思」,以此来测试它们的图片解读能力。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet 从画面角色、场景以及氛围等方面进行详细描述,不过它似乎没搞懂这张梗图的内涵,也不认识这几个 AI 视频应用,只是含混其辞地表示「这是对在线社区、人工智能系统或虚拟世界中权力结构的评论。」

GPT-4o 一瞅就明白其中深意,「这张图片可能象征着 Runway 在人工智能和创意工具领域的公认优势或领导地位,与提到的其他应用相比,Runway 受到高度重视。」

显而易见,这一局,GPT-4o 完胜。


第五局:读懂世界名画

我们拿出皮埃尔・奥古斯特・库特在 1873 年画的《春光》一图,让它们识别画作并进行赏析。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

这两个大模型堪称艺术界的「行家里手」,均认出了这幅画作,基础信息也表达无误,同时从不同的角度进行赏析。

它们都提到市场价值,不过,Claude 3.5 Sonnet 拒绝置评,只提醒「艺术品估价需要专家评估,考虑多种因素,而且价格可能会随着时间的推移而大幅波动。」

GPT-4o 则认为该画可能会拍出数百万美元的价格,这是不是太小看这幅经典画作了?

这一局,两个大模型算是打成平手。


第六局:AI 看病

最近网友们玩起了用 AI 大模型来看病。我们找了一张 6 岁孩子牙齿的 X 光照片,让大模型们通过牙齿推断年龄,以及有哪些问题。

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet 基于乳牙和恒牙的发育情况,得出结论:这是一个 6-7 岁左右孩子的牙齿,下颌牙齿有些拥挤,恒牙似乎受到阻生,牙齿上较暗的区域或许有腐烂。

GPT-4o 则认为这是 7-9 岁孩子的牙齿,主要的牙齿问题包括恒牙拥挤和潜在的嵌塞。

同时,它们都提到这需要专业的牙医检查。

两相比较,Claude 3.5 Sonnet 对于年龄的判断更为精准一些。

这一局,Claude 3.5 略胜一筹。

此外,不少网友还在线整活儿,捣鼓出不少有趣的玩法。

比如说,EverArt 创始人 Pietro Schirano 在 Claude 3.5 Sonnet 的帮助下,使用几何形状克隆了马里奥游戏,整个过程仅持续 3 分钟。

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

他表示,「最疯狂的部分是它还为角色提供了动画,而且这些形状看起来很新颖。」

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

视频链接:https://mp.weixin.qq.com/s/dbApyzEtYNgsWsXoi12gFQ

各位读者,你们觉得这次 Claude 3.5 Sonnet 有没有完成对 GPT-4o 的「绝杀」呢?

以上就是《一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?》的详细内容,更多关于产业的资料请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
华为:仓颉编程语言自主可控,没有基于任何现有的编程语言演进华为:仓颉编程语言自主可控,没有基于任何现有的编程语言演进
上一篇
华为:仓颉编程语言自主可控,没有基于任何现有的编程语言演进
小冰联合视美泰共创ShiMeta数字人解决方案:大模型加持,让每一个大屏终端都成为全新的交互载体
下一篇
小冰联合视美泰共创ShiMeta数字人解决方案:大模型加持,让每一个大屏终端都成为全新的交互载体
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    16次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    12次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    12次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    17次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码