当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭

Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭

来源:机器之心 2024-09-16 09:52:23 0浏览 收藏
推广推荐
免费电影APP ➜
支持 PC / 移动端,安全直达

目前golang学习网上已经有很多关于科技周边的文章了,自己在初次阅读这些文章中,也见识到了很多学习思路;那么本文《Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭》,也希望能帮助到大家,如果阅读完后真的对你学习科技周边有帮助,欢迎动动手指,评论留言并分享~

GPT-5 不出,Grok 已经赶上了。

就在谷歌与 OpenAI 互相抢新闻的同一天,马斯克旗下的 xAI 也没有闲着。

北京时间周三下午,xAI 正式发布了新一代 Grok 2 大模型。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
第三方大模型基准组织 Chatbot Arena 也立即更新了 LMSYS 榜的成绩列表。Grok 2 的早期型号(sus-column-r)紧随 GPT-4o(0513 版)之后可以位列第四,表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo。

它在编码、复杂问题和数学方面表现出色。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
马斯克不免自夸起来,「Grok 的推进速度像坐了火箭。」
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
注意,这只是早期版本的分数,Chatbot Arena 表示后续还会测试一下正式版。

马斯克表示,Grok-2 是具有最先进推理能力的先进语言模型。新一代包括两个版本:Grok-2 和 Grok-2 mini。两种模型现在都在 X 平台上向 Grok 用户发布。目前,X Premium 和 Premium+ 用户已经可以体验 Grok-2 和 Grok-2 mini 这两种模型。

相比此前的 Grok-1.5,Grok-2 的早期预览版实现了重大进步,在聊天、推理、代码等方面展示出了领先的能力。xAI 表示,Grok-2 和 Grok-2 mini 目前正在 X 上处于测试阶段,将在本月晚些时候通过企业 API 的方式提供。

新模型发布后不到半小时,已经有网友在晒使用效果了,他使用 Grok 2 mini 生成了一张「我与马斯克吃热狗」的图像。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
再试试其他的生成一张华盛顿的画像。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
也有人试了试 Grok 2 mini,生成一只飞猫。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
还有人生成了特斯拉 Model Y,看起来挺像的?
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
Grok-2 性能大 PK

随着 xAI 将 Grok-2 的早期版本「sus-column-r」放入到 Chatbot Arena,我们看到了它与其他流行开闭源模型的性能比较。

就总体的 Elo 得分而言,Grok-2 的表现要优于 Claude 系列模型和大多版本的 GPT-4。当然,排在第一位的是 OpenAI 这几天刚放出的 GPT-4o(8 月 8 日版本)。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
下图为 Grok-2 与其他流行模型的胜率(Win Rate)比较。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
下图为 Grok 1.5 与 Grok 2 两个版本基于事实性的胜率比较。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
xAI 采取这样的流程来对 Grok 2 模型进行评估,利用 AI Tutors 在各种任务中与模型真实互动。在每次互动过程中,Grok 2 都会向 AI Tutors 提供两个响应,然后根据指南中列出的特定标准选择最佳响应。

xAI 专注于在两个关键领域评估模型性能, 分别是指令遵循和提供准确、真实的信息。结果显示,Grok 2 在利用检索到的内容进行推理以及使用工具的能力方面有了显著的进步,比如正确地识别缺失信息、通过事件序列进行推理、丢弃不相关的帖子等。

基准测试成绩

xAI 通过一系列学术基准对 Grok-2 模型进行了评估,这些基准包括推理、阅读理解、数学、科学和编码。

Grok-2 和 Grok-2 mini 都比之前的 Grok-1.5 模型有了显著改进。在研究生水平的科学知识 (GPQA)、常识 (MMLU、MMLU-Pro) 和数学竞赛问题 (MATH) 等领域的表现可与其他前沿模型相媲美。

此外,Grok-2 在基于视觉的任务方面表现也很出色,在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 方面性能显著。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
Grok 2 界面和功能「大变身」

过去几个月,xAI 一直不断地提升 x 平台上的 Grok 体验。现在,随着下一代 Grok 2 的推出,xAI 重新设计了界面,如下图所示。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
当然,xAI 提供了一些新功能,比如 Conway《生命游戏》的简单实现。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
再比如多模态理解能力(看图说话)。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
其中,Grok-2 是 xAI 最先进的 AI 助手,拥有文本和视觉理解功能,并集成了来自 X 平台的实时信息,可通过 X 应用程序中的 Grok 选项卡访问。

Grok-2 mini 是一款小巧但功能强大的模型,在速度和答案质量之间取得了很好平衡。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭

与其前代产品相比,Grok-2 更直观、更可控、更灵活,适用于各种任务,无论你是在寻找答案、协作写作还是解决编码任务。

此外,xAI 还与初创公司 Black Forest Labs 展开合作,试验他们的 FLUX.1 模型,以扩展 Grok 在 X 上的功能。
Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭
本月晚些时候, xAI 还将通过新的企业 API 平台向开发人员发布 Grok-2 和 Grok-2 mini。即将推出的 API 建立在新的定制技术堆栈上,允许多区域推理部署,以实现全球低延迟访问。

当然,xAI 还提供了一些增强的安全功能,例如强制性多因素身份验证(例如使用 Yubikey、Apple TouchID 或 TOTP)。

可以看到,自 2023 年 11 月推出 Grok-1 以来,xAI 一直以惊人的速度推进该系列模型。很快,他们将发布具有多模态理解的预览版。xAI 之后的重点将是通过新的计算集群来提高模型的核心推理能力。

博客地址:https://x.ai/blog/grok-2

到这里,我们也就讲完了《Grok-2来了,能生图识图、性能比肩GPT-4o,马斯克:发展猛如火箭》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于马斯克,XAI,产业,Grok 2的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Java函数式接口的常用工具类Java函数式接口的常用工具类
上一篇
Java函数式接口的常用工具类
Python 数据整理和数据质量
下一篇
Python 数据整理和数据质量
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3207次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3421次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3450次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4558次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3828次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码