NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?
学习科技周边要努力,但是不要急!今天的这篇文章《NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?》将会介绍到等等知识点,如果你想深入学习科技周边,可以关注我!我会持续更新相关文章的,希望对大家都能有所帮助!

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

论文链接:https://arxiv.org/abs/2410.05695
代码地址:https://github.com/LightChen233/reasoning-boundary










完全可行的推理边界:研究者定义准确率大于 90% 的部分是完全可行的推理边界 (CFRB=
),这意味着 LLM 可以有效地掌握这部分的表现。
完全不可行的推理边界:研究者认为准确率小于 10% 的部分是完全不可行的推理边界 (CIRB=
),这意味着模型永远无法有效掌握这部分的性能。
部分可行推理边界:研究者将除 CFRB 和 CIRB 之外的其余部分中的 RB 定义为部分可行推理边界 (PFRB=
),这需要模型重复思考或者更清晰的信息来解决问题。
模型设置:研究者们采用了 GPT-3.5-Turbo 作为主要模型,实验还涵盖了多任务场景,包括数学推理、多跳问答和多语言推理等领域,以确保推理边界的全面评估。
基准设置:为了更好地评估 LLMs 的推理能力,作者引入了一个新的数据集 ——BigGSM。这个数据集不仅具有较高的计算复杂性,还包含更长的推理链,能够更好地挑战模型的推理上限。

复杂多项式计算的推理边界:可视为 ①计算步骤规划 与 ②数学运算 两个推理边界的结合。如图 3 (a) 所示,实验结果显示了三个具有明显边界的推理边界划分区域。 复杂小学数学推理的推理边界:可理解为 ①自然语言步骤规划 与 ②数学运算 的结合,图 3 (b) 中同样展示了三个清晰的推理边界划分区域。 多跳问答的推理边界:可被视作 ①多跳规划 与 ②实体推理 的结合。正如图 3 (c) 所示,三个推理边界划分的有效区域同样可见。

完全可行推理边界-->完全掌握:如图 4 (a, b) 所示,在这一边界下,模型即使在没有示例、无需 self-consistency 的情况下也能够高效完成任务。
部分可行推理边界-->不完全掌握:在这一推理边界下,如图 4 (b) 所示,模型对任务的掌握程度有限,需要通过多次 Self-consistency 来增强信心,从而提高准确率。
完全不可行推理边界-->完全不掌握:在这种边界下,如图 4 (b) 所示,模型的推理表现极其有限,即便采用 Self-consistency,模型的准确率仍难以得到提升。
大模型能够自己意识到自己的推理边界:研究还发现,如图 4 (c) 所示,当让模型自行生成 CoT 示例时,模型更倾向于生成符合其推理边界的样本,特别是在完全可行推理边界范围内,而很少生成其完全无法掌握的样本。这表明模型对推理边界具有一定的自我感知能力,能够根据自身能力选择合适的任务进行推理。








Complex CoT 在推理步骤与性能之间的平衡
单次计算负荷缓解:研究表明,通过增加推理步骤,可以缓解单次计算的负荷,从而提升模型的计算边界
,这有助于提高整体的推理能力。
规划难度增加:然而,推理步骤的过度增加可能带来负面影响:原问题在准确率较高的边界
上,经过 Complex CoT,可能落到准确率较低的边界
上,其中
。这意味着过多的推理步骤可能导致组合推理准确度的下降。

在规划与计算负荷之间存在一个平衡:如图 6 所示,随着推理步骤的增加,模型性能在初期显著提高,但当步骤数超过模型的最优推理能力时,性能开始下降。这表明,Complex CoT 在推理步骤数量与计算负荷之间存在一个最佳平衡点。超出这一点,计算负荷的增加会对模型的整体表现产生负面影响。
Least-to-Most 的分步优化策略



最短可接受推理路径提示(MARP)
最小化推理路径提示:为了减轻与规划相关的认知负担,通过该提示让模型尽可能简洁地回答问题,确保提供简短、清晰和直接的推理路径。

可接受推理路径提示:为了更有效地利用推理边界的上限,通过该提示要求模型每一个推理步骤的复杂性在可接受的范围内。

推理边界与模型准确率的正相关性:研究者通过对 25 个不同模型的推理边界表现进行分析,发现推理边界与数学任务中的准确率呈现出正相关关系。
数学模型与通用模型在推理边界 - 准确率分布上的差异:通过数学数据微调的模型,推理边界 - 准确率分布虽然呈现出正相关,但与通用 LLM 存在显著差异。这可以为未来区分模型是否进行了数学专项训练提供了一个潜在的指标。
开源模型在完全可行推理边界上的局限性:开源模型在完全可行推理边界(CFRB)上的表现与闭源模型存在显著差异。几乎所有开源模型的 CFRB 值均为 0,这表明开源模型在高级推理任务上的不足,表明其在未来优化中的潜力。

多语言推理:通过将多语言能力、数学计算与推理规划相结合,实验结果表明,这些能力的正交组合后,推理边界依然保持了三类不同的推理边界模式,进一步证实了此方法的普适性和稳定性。

医疗推理:类似地,在医疗领域,研究通过将医疗实体推理与多跳推理规划相结合,验证了推理边界在正交组合后仍然保持一致,说明该推理策略同样适用于医疗推理任务。



以上就是《NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?》的详细内容,更多关于工程的资料请关注golang学习网公众号!

- 上一篇
- Python multiprocessing Pipe 报错“管道已关闭”:原因和解决方案

- 下一篇
- 实时获取海量数据数量,哪种方案更适合?
-
- 科技周边 · 人工智能 | 14秒前 |
- 豆包AI说明书超全写作技巧,手把手教你玩转豆包AI
- 350浏览 收藏
-
- 科技周边 · 人工智能 | 37分钟前 | 效率提升 代码生成 asyncio 豆包AI Python异步编程
- 豆包AI玩转Python异步编程,效率提升不止一点点!
- 150浏览 收藏
-
- 科技周边 · 人工智能 | 52分钟前 | 代码生成 代码检查 豆包AI Python异步编程 异步库
- 豆包AI带你手把手学Python异步编程,超简单!
- 194浏览 收藏
-
- 科技周边 · 人工智能 | 56分钟前 |
- 豆包AI手把手教你用Python解析XML文件,soeasy!
- 463浏览 收藏
-
- 科技周边 · 人工智能 | 58分钟前 | 台积电 半导体产业 亚利桑那州 SEMICONWest 芯片法案
- SEMICON首次亮相亚利桑那,SEMI强势入驻硅谷!
- 456浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 豆包AI手把手教你写区块链智能合约!5大技巧打造安全Solidity代码
- 119浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 96次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 101次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 108次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 102次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 102次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览