当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 阿里国际版o1来了,Marco-o1:聚焦开放式问题推理

阿里国际版o1来了,Marco-o1:聚焦开放式问题推理

来源:机器之心 2024-12-18 08:54:35 0浏览 收藏

一分耕耘,一分收获!既然打开了这篇文章《阿里国际版o1来了,Marco-o1:聚焦开放式问题推理》,就坚持看下去吧!文中内容包含等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!

自从 OpenAI 发布 o1 模型以来,业界对其的追赶不断加速。

大模型推理的一个关键挑战在于,现实世界常常提出很多开放式和创造性的问题,对于 AI 来说,这是一类很难评估的任务,因为没有「标准答案」或者易于量化的奖励。

我们能否训练一个模型,让它能够从容应对无法避免的「模糊性」,仍然生成可靠的推理结果?

11 月 22 日,阿里巴巴国际数字商业集团MarcoPolo团队发布了 Marco-o1,这是一种旨在推进开放式问题解决的大型推理模型 (LRM)。当然该工作也提到:这是一项正在进行的探索性工作,仍有进一步改进的空间。

这篇论文篇幅并不长,让我们来梳理下技术细节。
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
  • 论文标题:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
  • 论文链接:https://arxiv.org/pdf/2411.14405
  • 项目地址:https://github.com/AIDC-AI/Marco-o1

虽然 o1 模型在 AIME 和 CodeForces 等测试中都展示了强大的推理能力,但 Marco-o1 的目标是超越结构化挑战,实现跨多个领域的泛化,特别是在那些没有严格评估指标的领域。通过集成诸如思维链 (CoT) 微调、蒙特卡洛树搜索 (MCTS) 和推理动作策略等技术来实现的,Marco-o1 能够更有效地处理复杂的问题解决任务。

通过微调 Qwen2-7B-Instruct 与过滤后的 Open-o1 CoT 数据集 、Marco-o1 CoT 数据集和 Marco-o1 指令数据集的组合,Marco-o1 提高了对复杂任务的处理能力。

  • Open-o1 CoT 数据集(已过滤):研究者通过应用启发式和质量过滤过程完善了 Open-o1 项目的 CoT 数据集,这一改进使模型能够有效地采用结构化推理模式。
  • Marco-o1 CoT 数据集(合成):研究者使用 MCTS 生成了 Marco-o1 CoT 数据集,这有助于制定复杂的推理路径,进一步增强了模型的推理能力。
  • Marco 指令数据集:认识到强大的指令遵循能力在执行复杂任务中的关键作用,研究者整合了一组指令遵循数据。这种整合确保了模型能够胜任各种任务,在保持其普遍有效性的同时显著增强其推理能力。
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
结果显示,Marco-o1 在 MGSM(英文)数据集上的准确率提高了 6.17%,在 MGSM(中文)数据集上的准确率提高了 5.60%,展示了更强的推理能力。

在翻译任务中,实验还证明 Marco-o1 在翻译俚语表达方面表现出色。例如,该模型正确地将中文中字面意思为「这只鞋给人一种踩屎感」的俗语翻译成了英文「This shoe has a comfortable sole」(这只鞋的鞋底很舒服),证明了它对俗语细微差别的精准把握。

基于 MCTS 的解空间扩展
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
该研究将 LLM 与 MCTS 集成在一起,以增强 Marco-o1 模型的推理能力:

  • 节点是推理状态:在 MCTS 框架中,每个节点代表解决问题过程的推理状态;
  • 动作作为 LLM 输出:节点可能执行的动作是 LLM 生成的输出。这些输出代表推理链中的潜在 step 或 mini-step;
  • Rollout 和奖励计算:在 rollout 阶段,LLM 继续推理过程直至终止状态;
  • 指导 MCTS:奖励分数 R 用于评估和选择 MCTS 中的有希望的路径,从而有效地引导搜索走向更置信、更可靠的推理链。

此外,该研究通过计算置信度得分来获得每个状态的值。对于最终结果的每个 token t_i,作者通过将 softmax 函数应用于其对数概率和前 5 个替代 token 的对数概率来计算其置信度得分。这由以下公式给出:
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
在获得最终结果的所有 token 的置信度得分后,然后计算所有 token 的平均置信度得分,从而得出总奖励得分:
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
此平均值作为奖励信号,用于评估推理路径的质量。较高的 v 表示更置信且更准确的推理路径。

通过采用这种方法,该研究有效地扩展了解空间,使模型能够探索大量推理路径并根据计算出的置信度分数选择最可能的路径。

推理动作策略

动作选择

该研究观察到使用动作作为 MCTS 搜索的粒度相对粗糙,导致模型经常忽略对解决复杂问题至关重要的细微推理路径。

为了解决这个问题,该研究探索了 MCTS 搜索中的不同粒度级别。

最初,他们使用 step 作为搜索单位。

为了进一步扩展模型的搜索空间并增强其解决问题的能力,作者尝试将这些 step 分成包含 64 或 32 个 token 较小的单元,称为 mini-step。这种更加精细的粒度允许模型更详细地探索推理路径。

然而,虽然 token 级搜索在理论上提供了最大的灵活性和粒度,但由于需要大量的计算资源,以及设计这一级别的有效奖励模型挑战巨大,因此目前它是不切实际的。

实验中,该研究在 MCTS 框架内实施了以下策略:

Step 作为动作:允许模型生成完整的推理 step 作为动作。每个 MCTS 节点代表一个完整的思维或动作标签。这种方法可以实现有效的探索,但可能会错过解决复杂问题所必需的更细粒度的推理路径。

Mini-step 作为动作:使用 mini-step(32 或 64 个 token)作为动作。这种更细的粒度扩展了解空间,并通过在搜索过程中考虑更细微的 step 来提高模型处理复杂推理任务的能力。通过在这个级别探索解空间,模型可以更好地找到可能被更大的动作单元忽略的正确答案。

思考后进行反思

作者还引入了反思机制,通过在每个思考过程的末尾添加短语「Wait! Maybe I made some mistakes! I need to rethink from scratch。」 这提示模型自我反思并重新评估其推理步骤。实施这种反思机制已经带来了显著的改进,特别是在原始模型最初无法正确解决的困难问题上。加上反思,这些具有挑战性的问题大约有一半得到了正确的回答。

从自我批评的角度来看,这种方法使模型能够充当自己的批评者,识别其推理中的潜在错误。通过明确地提示模型质疑其初步结论,奖励模型重新表达和完善其思维过程。这种自我批评机制利用了模型检测自身输出中的不一致性或错误的能力,从而得到更准确、更可靠的解决方案。反思步骤充当了一个内部反馈循环,增强了模型在没有外部干预的情况下自我纠正的能力。 

实验及结果

作者基于 Qwen2-7B-Instruct,并在训练数据上进行了 SFT,得到 Marco-o1-CoT。此外,作者在 MCTS(蒙特卡罗树搜索)框架中使用了 Marco-o1-CoT,通过动作来区分: 

  • Marco-o1-MCTS (step):使用每个推理 step 作为一个动作(step);
  • Marco-o1-MCTS (mini-step of 64 tokens):使用 64 个 token 的 mini-step 作为一个动作(64 个 token);
  • Marco-o1-MCTS (mini-step of 32 tokens):使用 32 个 token 的 mini-step 作为一个动作(32 个 token)。

测试过程中,每个模型都使用了 CoT 提示来确保推理过程的一致性。

结果表明:在 MGSM-en 数据集中,Marco-o1-CoT 比 Qwen2-7B-Instruct 表现优异,如图 4 所示,这是由于使用了英文 CoT 数据进行了微调。然而,在 MGSM-zh 数据集中,Marco-o1-CoT 的表现与 Qwen2-7B-Instruct 相比有所下降。这种下降归因于用于微调的 CoT 数据是英文的,这可能无法有效地迁移到中文数据中。
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
这三个经过 MCTS 增强的模型表现出比 Marco-o1-CoT 更好的改进,表明融入 MCTS 有助于扩展模型的解空间,并增加获得正确答案的概率。然而,由于本文使用置信度得分作为奖励,树搜索结果显示出显著的随机性。

在 MGSM-en 中,step 作为动作策略表现最好,而在 MGSM-zh 中,mini-step 作为动作(32)策略产生了最高的准确性。目前,如图 4、5 和 6 所示,作者还无法得出哪种动作策略更优的明确结论。但研究者相信,随着奖励变得更准确,MCTS 提供的更大解空间将展现出更大的潜力。 
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
如图 7、8 和 9 所示,Marco-o1 在处理复杂翻译任务(尤其是口语和俚语)上具有高级理解和推理能力,优于 Google 翻译等标准翻译工具。
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理
阿里国际版o1来了,Marco-o1:聚焦开放式问题推理

本篇关于《阿里国际版o1来了,Marco-o1:聚焦开放式问题推理》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
阿维塔完成超110亿元融资!阿维塔完成超110亿元融资!
上一篇
阿维塔完成超110亿元融资!
全面了解电脑识别码及其重要性
下一篇
全面了解电脑识别码及其重要性
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    67次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    88次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    93次使用
  • 稿定PPT:在线AI演示设计,高效PPT制作工具
    稿定PPT
    告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
    86次使用
  • Suno苏诺中文版:AI音乐创作平台,人人都是音乐家
    Suno苏诺中文版
    探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
    89次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码