当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 为什么说DeepSeek的R1-Zero比R1更值得关注?

为什么说DeepSeek的R1-Zero比R1更值得关注?

来源:机器之心 2025-01-30 21:07:10 0浏览 收藏

怎么入门科技周边编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《为什么说DeepSeek的R1-Zero比R1更值得关注?》,涉及到,有需要的可以收藏一下

R1-Zero 等模型正在打破人类数据瓶颈,开启 AI 自我进化新范式?

「比起 R1,DeepSeek 同一时间发布的 R1-Zero 更值得关注。」这是 ARC Prize 联合创始人 Mike Knoop 在一篇新博客中发表的观点。
图片
他认为,R1-Zero 之所以比 R1 更值得分析,是因为它完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT),这表明在某些任务中,人类标注并非必要,且未来可能通过纯 RL 方法实现更广泛的推理能力。

此外,R1 和 R1-Zero 的成功还能让我们读出一些信息,比如:
  • 通过投入更多计算资源,AI 系统的准确性和可靠性可以显著提升,这将增强用户对 AI 的信任,推动商业化应用。

  • 推理过程正在生成大量高质量的训练数据,且这些数据由用户付费产生,这种「推理即训练」的新范式可能彻底改变 AI 数据经济的运作方式,形成自我强化的循环。

以下是博客内容:  

R1-Zero 比 R1 更值得分析

上周,DeepSeek 发布了他们新的「推理」系统 R1-Zero 和 R1,两个模型在 ARC-AGI-1 上的得分与 OpenAI 的 o1 系统低计算量版本相当。R1-Zero、R1 和 o1(低计算量模式)的得分都在 15-20% 左右。相比之下,纯 LLM scaling 多年积累的顶点 GPT-4o 仅为 5%。根据本周美国市场反应,公众也开始理解纯 LLM scaling 的局限性。然而,对即将到来的推理需求,公众仍普遍认识不足。

2024 年 12 月,OpenAI 宣布了一个经过验证的新突破性系统 o3。该系统在低计算量模式下得分为 76%,在高计算量模式下得分为 88%。o3 系统展示了计算机适应新颖未见问题的首个实用、通用实现(参见《刚刚,OpenAI 放出最后大惊喜 o3,高计算模式每任务花费数千美元》)。
图片
尽管 o3 在 ARC-AGI-1 上取得胜利是重大科技新闻,但主流媒体几乎未予报道。

这是 AI 领域和计算机科学的一个极其重要的时刻,这些系统值得研究。但由于 o1/o3 的封闭性质,只能依靠推测。得益于 ARC-AGI-1 和现在(几乎)开源的 R1-Zero 和 R1,我们可以增进对此的理解(说「几乎」是因为 DeepSeek 没有发布一个可复现的方式来从头开始生成他们的模型权重)。特别是,R1-Zero 比 R1 重要得多。

在对 o1 和 o3 的分析中,ARC Prize 团队针对这些推理系统的工作原理进行了推测。他们认为,这些模型的关键思路可能是:
  1. 为问题域生成思维链(CoT)。

  2. 使用人类专家(「监督微调」或 SFT)和自动化机器(强化学习(RL))的组合来标注中间 CoT 步骤。

  3. 使用(2)得到的数据训练基础模型。

  4. 在测试时,从过程模型中进行迭代推理。

下图回顾了各模型迭代采样所使用的技术及其在 ARC-AGI-1 上的得分:
图片
                                   图上显示的是 ARC-AGI-1 半私有分数。

有了 DeepSeek 新发表的研究,ARC Prize 团队可以更好地为自己的猜测提供信息。这里的关键见解是,LLM 推理系统实现更高程度地适应新任务的能力(和可靠性)是通过三个维度实现的:
  1. 在 CoT 过程模型训练中添加人类标签(即 SFT);

  2. 使用 CoT 搜索而不是线性推理(并行逐步 CoT 推理);

  3. 整体 CoT 采样(并行轨迹推理)。

维度 1 受限于人类数据生成,并限制了这些推理系统在哪些领域收益最大。例如,o1 在 MMLU 专业法律类别上的表现出人意料地比数学和逻辑要低得多。

维度 2、3 受限于效率。o1 和 o3 在测试时都显示了随着推理计算量的增加,在 ARC-AGI-1 上的基准准确率呈对数增长,而不同的计算资源分配策略会影响达到同样性能水平所需要的具体计算量。

在该团队看来,DeepSeek 最有趣的做法是单独发布 R1-Zero。R1-Zero 是一个不使用 SFT(维度 1)的模型,而是完全依赖于强化学习。

R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致,分别为 14% 和 15.8%。DeepSeek 自己报告的基准测试分数也显示 R1-Zero 和 R1 高度一致,例如在 MATH AIME 2024 上的得分分别为 71% 和 76%(相比基础 DeepSeek V3 的约 40% 有所提升)。

在论文中,R1-Zero 的作者提到「DeepSeek-R1-Zero 面临可读性差、语言混杂等挑战」,这一点已在网上得到证实。然而在测试中,ARC Prize 团队在测试 R1-Zero 在 ARC-AGI-1 上的表现时几乎没有发现不连贯的证据,这与系统经过 RL 训练的数学和代码领域相似。

综合这些发现,ARC Prize 团队得出结论:
  • 在那些能够清晰判断对错的领域中 ,SFT(如人类专家标注)对于准确和易读的 CoT 推理并非必需。

  • R1-Zero 训练过程能够通过 RL 优化在 token 空间中创建自己的内部领域特定语言(DSL)。

  • SFT 是提高 CoT 推理领域泛化性的必要条件。

这很符合直觉,因为语言本身实际上就是一个推理 DSL。完全相同的「词语」可以在一个领域中学习并应用到另一个领域,就像程序一样。纯 RL 方法还不能发现广泛共享的词汇表,预计这将成为未来研究的重点。

最终,R1-Zero 展示了一个潜在 scaling 机制的原型,该机制完全没有人类瓶颈 —— 甚至在训练数据获取本身也是如此。

几乎可以肯定的是,DeepSeek 已将目标对准了 OpenAI 的 o3 系统。重要的是要关注 SFT 是否最终会成为添加 CoT 搜索和采样的必要条件,或者假设的「R2-Zero」是否可能沿着相同的对数准确率与推理 scaling 曲线存在。基于 R1-Zero 的结果,ARC Prize 团队认为在这个假设的 scaled up 版本中,要在 ARC-AGI-1 上挑战成功并不需要 SFT。

烧钱换信任:AI 可靠性被标价

从经济角度来看,AI 领域正在发生两个重大转变:
  • 现在可以花更多钱来获得更高的准确性和可靠性;

  • 训练成本正在转向推理成本。

这两者都将推动对推理的大量需求,而且都不会抑制对更多计算能力的需求。实际上,它们将增加对计算能力的需求。

AI 推理系统带来的价值远不止提高基准测试的分数那么简单。阻碍更多 AI 自动化使用(例如推理需求)的首要问题是可靠性。ARC Prize 团队与数百位试图在业务中部署 AI 智能体的 Zapier 客户交谈,反馈高度一致:「我还不信任它们,因为它们工作不可靠」。

此前 ARC Prize 团队认为,模型在 ARC-AGI 方面的进展将提高可靠性。LLM 智能体的挑战在于它们需要强大的本地领域引导才能可靠工作。更强的泛化能力需要适应未见情况的能力。现在有证据表明 ARC Prize 团队的观点是正确的。因此,多家公司(Anthropic、OpenAI、Apple 等)现在推出智能体也就不足为奇了。
图片
出于可靠性需求,智能体将推动近期推理需求的显著增长。更广泛地说,开发者可以选择花费更多计算来增加用户对系统的信任。提高可靠性并不代表能做到百分百正确,但至少能保证即使犯错,也是以一种可预期的方式犯错。这没有问题,因为当准确率低时,用户和开发者现在可以通过提示更自信地引导行为。

以前计算机无法解决的问题现在都有了对应的价格标签。随着效率的提高,这些价格会降低。

推理即训练:推理将成 AI 模型的「数据永动机」?  

另一个正在发生的重大转变是进入 LLM 系统预训练的数据来源。此前,大多数数据要么是购买的,要么是抓取的,要么是从现有 LLM 合成生成的(例如蒸馏或增强)。

这些推理系统提供了一个新选择,即生成「真实」数据而不是「合成」数据。AI 行业使用「合成」一词来指代通常通过 LLM 循环来增加整体训练数据量的低质量数据,但收益递减。

 但现在,通过推理系统和验证器,我们可以创造全新的、有价值的训练数据。这种数据的产生有两种方式:要么是开发者提前付费生成,要么是在用户实际使用系统时由用户付费生成! 

这是一个引人深思的经济模式转变,暗示着拥有最多付费用户的 AI 系统开发商可能会拥有一个实力快速积累的关键时刻。这些付费用户实际上在为创造新的高质量数据买单..…… 这些数据又会让模型变得更好..…… 更好的模型会吸引更多用户青睐..…… 如此形成良性循环。 

如果能够突破人类专家 CoT 障碍,创建一个极其高效的系统,通过搜索 / 合成和验证来创建新数据,那么应该预期会有大量计算投入这些推理系统,因为它们实际上只需要输入资金和原始数据就能变得更好。最终,这种类型的 AI 训练将完全超越在人类生成数据上进行的预训练。

结论:DeepSeek 推动了科学的前沿

随着推理需求增加变得明显,市场调整将继续发生。AI 系统效率只会推动更多使用,这不仅是由于杰文斯悖论,还因为效率提高时新的训练机制被解锁(注:杰文斯悖论指的是:当技术进步提高了资源使用效率时,反而可能导致该资源的总消耗量增加,而不是减少)。

随着 R1 的开源和可复现,更多人和团队将把 CoT 和搜索推向极限。这将更快地告诉我们前沿实际在哪里,并将推动一波创新浪潮,增加快速实现 AGI 的机会。

已经有多人告诉 ARC Prize 团队,他们计划在 ARC Prize 2025 中使用 R1 风格的系统。

R1 的开源对世界来说是一件好事。DeepSeek 推动了科学的前沿。

原文链接:https://arcprize.org/blog/r1-zero-r1-results-analysis

到这里,我们也就讲完了《为什么说DeepSeek的R1-Zero比R1更值得关注?》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于入门,DeepSeek的知识点!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
SpicyCamcast:轻巧的摄像头和JavaScript的屏幕截图集成SpicyCamcast:轻巧的摄像头和JavaScript的屏幕截图集成
上一篇
SpicyCamcast:轻巧的摄像头和JavaScript的屏幕截图集成
掌握Laravel身份验证:初学者的完整指南
下一篇
掌握Laravel身份验证:初学者的完整指南
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    17次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    13次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    13次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    16次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    18次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码