当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

来源:机器之心 2024-07-01 19:54:26 0浏览 收藏

怎么入门科技周边编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了》,涉及到,有需要的可以收藏一下

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本论文作者来自华为蒙特利尔诺亚方舟实验室的康计堃,李信择,陈熙, Amirreza Kazemi,陈博兴。

人工智能(AI)在过去十年里取得了长足进步,特别是在自然语言处理和计算机视觉领域。然而,如何提升 AI 的认知能力和推理能力,仍然是一个巨大的挑战。

近期,一篇题为《MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time》的论文提出了基于树搜索的推理时间能力提升方法 MindStar [1],该方法在开源模型 Llama-13-B 与 Mistral-7B 上达到了近似闭源大模型 GPT-3.5 与 Grok-1 在数学问题上的推理能力。

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

  • 论文标题:MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
  • 论文地址:https://arxiv.org/abs/2405.16265v2

MindStar 在数学问题上的应用效果:

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

                           图 1 :不同大型语言模型的数学准确率。LLaMA-2-13B 在数学性能上与 GPT-3.5 (4-shot) 类似,但节省了大约 200 倍的计算资源。

1. 引言

随着模型规模的快速增长,基于 Transformer 的大型语言模型(LLMs)在指令遵循 [1,2]、编码辅助 [3,4] 和创意写作 [5] 等领域展示了令人印象深刻的成果。然而,解锁 LLMs 解决复杂推理任务的能力仍然是一大挑战。最近的一些研究 [6,7] 尝试通过监督微调(Supervised Fine-Tuning, SFT)来解决,通过将新的推理数据样本与原始数据集混合,使 LLMs 学习这些样本的底层分布,并尝试模仿所学逻辑来解决未见过的推理任务。尽管这种方法有性能提升,但它严重依赖于大量的训练和额外的数据准备 [8,9]。

Llama-3 报告 [10] 强调了一个重要的观察:当面对一个具有挑战性的推理问题时,模型有时会生成正确的推理轨迹。这表明模型知道如何产生正确答案,但在选择上存在困难。基于这一发现,我们提出了一个简单的问题:我们能否通过帮助 LLMs 选择正确的输出来增强它们的推理能力?为探索这一点,我们进行了一项实验,利用不同的奖励模型进行 LLMs 输出选择。实验结果表明,步骤级选择显著优于传统的 CoT 方法。

2. MindStar 方法

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

                               图 2 MindStar 的算法架构图

我们引入了一种新的推理搜索框架 ——MindStar(M*),通过将推理任务视为搜索问题,并利用过程监督的奖励模型(Process-supervised Reward Model, PRM),M * 在推理树空间中有效导航,识别近似最优路径。结合束搜索(Beam Search, BS)和 Levin 树搜索(Levin Tree Search, LevinTS)的思想,进一步增强了搜索效率,并保证在有限计算复杂度内找到最佳推理路径。

2.1 过程监督奖励模型

过程监督奖励模型 (PRM) 的设计目的是评估大语言模型 (LLM) 生成的中间步骤,以帮助选择正确的推理路径。这种方法借鉴了其他应用中 PRM 的成功经验。具体而言,PRM 以当前推理路径等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了和潜在的下一步等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了作为输入,并返回奖励值等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

PRM 通过考虑整个当前推理轨迹来评估新步骤,鼓励与整体路径的一致性和忠实性。高奖励值表明,新的步骤等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了)对于给定的推理路径等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了可能是正确的,从而使扩展路径值得进一步探索。相反,低奖励值则表示新步骤可能不正确,这意味着遵循此路径的解决方案也可能不正确。

M* 算法包含两个主要步骤,迭代直到找到正确的解决方案:

1. 推理路径扩展:在每次迭代中,基础 LLM 生成当前推理路径的下一步。
2. 评估和选择:使用 PRM 评估生成的步骤,并根据这些评估选择下一次迭代的推理路径。

2.2 推理路径扩展

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

在选择要扩展的推理路径等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了后,我们设计了一个提示模板(Example 3.1),以从 LLM 中收集下一步。正如示例所示,LLM 将原始问题作为 {question},将当前推理路径作为 {answer}。注意,在算法的第一次迭代中,所选择的节点是仅包含问题的根节点,因此 {answer} 为空。对于推理路径图片,LLM 生成 N 个中间步骤,并将它们作为当前节点的子节点附加。在算法的下一步中,将评估这些新生成的子节点,并选择一个新的节点进行进一步扩展。我们还意识到,生成步骤的另一种方法是使用步骤标记对 LLM 进行微调。然而,这可能会降低 LLM 的推理能力,更重要的是,这与本文的重点 —— 在不修改权重的情况下增强 LLM 推理能力相悖。

2.3 推理路径选择

在扩展推理树后,我们使用预训练的过程监督奖励模型(PRM)来评估每个新生成的步骤。正如前面提到的,PRM 采用路径和步骤 ,并返回相应的奖励值。在评估之后,我们需要一种树搜索算法来选择下一个要扩展的节点。我们的框架不依赖于特定的搜索算法,在这项工作中,我们实例化了两种最佳优先搜索方法,即 Beam Search 和 Levin Tree Search。

3. 结果与讨论

在 GSM8K 和 MATH 数据集上的广泛评估显示,M * 显著提升了开源模型(如 LLaMA-2)的推理能力,其表现可与更大规模的闭源模型(如 GPT-3.5 和 Grok-1)媲美,同时大幅减少了模型规模和计算成本。这些发现突显了将计算资源从微调转移到推理时间搜索的潜力,为未来高效推理增强技术的研究开辟了新途径。

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

表 1 展示了各种方案在 GSM8K 和 MATH 推理基准上的对比结果。每个条目的数字表示问题解决的百分比。符号 SC@32 表示在 32 个候选结果中的自一致性,而 n-shot 表示少样本例子的结果。CoT-SC@16 指的是在 16 个思维链(CoT)候选结果中的自一致性。BS@16 代表束搜索方法,即在每个步骤级别涉及 16 个候选结果,而 LevinTS@16 详细说明了使用相同数量候选结果的 Levin 树搜索方法。值得注意的是,MATH 数据集上 GPT-4 的最新结果为 GPT-4-turbo-0409,我们特别强调这一点,因为它代表了 GPT-4 家族中的最佳性能。

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

图 3 我们研究了 M * 性能如何随着步骤级别候选数量的变化而变化。我们选择 Llama-2-13B 作为基础模型,并分别选择束搜索(BS)作为搜索算法。

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

图 4 Llama-2 和 Llama-3 模型家族在 MATH 数据集上的尺度定律。所有结果均来自它们的原始资源。我们使用 Scipy 工具和对数函数来计算拟合曲线。

等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

表 2 不同方法在回答问题时的平均 token 生产数量

4. 结论

本文介绍了 MindStar(M*),一种新颖的基于搜索的推理框架,用于增强预训练大型语言模型的推理能力。通过将推理任务视为搜索问题并利用过程监督的奖励模型,M* 在推理树空间中有效导航,识别近似最优路径。结合束搜索和 Levin 树搜索的思想,进一步增强了搜索效率,并保证在有限计算复杂度内找到最佳推理路径。广泛的实验结果表明,M* 显著提升了开源模型的推理能力,其表现可与更大规模的闭源模型媲美,同时大幅减少了模型规模和计算成本。

这些研究成果表明,将计算资源从微调转移到推理时间搜索具有巨大的潜力,为未来高效推理增强技术的研究开辟了新途径。

参考文献:
[1] Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. Advances in Neural Information Processing Systems, 33:3008–3021, 2020.
[2] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744, 2022. 
[3] Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023.
[4] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
[5] Carlos Gómez-Rodríguez and Paul Williams. A confederacy of models: A comprehensive evaluation of llms on creative writing. arXiv preprint arXiv:2310.08433, 2023.
[6] Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T Kwok, Zhenguo Li, Adrian Weller, and Weiyang Liu. Metamath: Bootstrap your own mathematical questions for large language models. arXiv preprint arXiv:2309.12284, 2023.
[7] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.
[8] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text. arXiv preprint arXiv:2310.06786, 2023.
[9] Peiyi Wang, Lei Li, Zhihong Shao, RX Xu, Damai Dai, Yifei Li, Deli Chen, Y Wu, and Zhifang Sui. Math-shepherd: Verify and reinforce llms step-by-step without human annotations. CoRR, abs/2312.08935, 2023.
[10] Meta AI. Introducing meta llama 3: The most capable openly available llm to date, April 2024. URL https://ai.meta.com/blog/meta-llama-3/. Accessed: 2024-04-30.

本篇关于《等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
华为MatePad SE新品预售,1299元起享11英寸护眼享受华为MatePad SE新品预售,1299元起享11英寸护眼享受
上一篇
华为MatePad SE新品预售,1299元起享11英寸护眼享受
ICML 2024| 大语言模型助力基于CLIP的分布外检测任务
下一篇
ICML 2024| 大语言模型助力基于CLIP的分布外检测任务
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    22次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    18次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    18次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    20次使用
  • Brev AI:零注册门槛的全功能免费AI音乐创作平台
    Brev AI
    探索Brev AI,一个无需注册即可免费使用的AI音乐创作平台,提供多功能工具如音乐生成、去人声、歌词创作等,适用于内容创作、商业配乐和个人创作,满足您的音乐需求。
    22次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码