当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > o1带火的CoT到底行不行?新论文引发了论战

o1带火的CoT到底行不行?新论文引发了论战

来源:机器之心 2024-09-30 21:46:00 0浏览 收藏

你在学习科技周边相关的知识吗?本文《o1带火的CoT到底行不行?新论文引发了论战》,主要介绍的内容就涉及到,如果你想提升自己的开发能力,就不要错过这篇文章,大家要知道编程理论基础和实战操作都是不可或缺的哦!

To CoT or not to CoT?

OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链(CoT)的兴趣。一时之间,似乎思维链很快就会成为所有 LLM 的标配,但思维链并非万能,就连 OpenAI 自己也‍提到 o1 在某些任务上的表现并不比 GPT-4o 强,尤其是以语言为中心的任务。

近日,一篇来自德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的论文引发了热议,其模仿莎士比亚《哈姆雷特》的台词提出了一个对 AI 研究者和实践者来说至关重要的问题:To CoT or not to CoT?

o1带火的CoT到底行不行?新论文引发了论战

论文标题:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

论文地址:https://arxiv.org/pdf/2409.12183

GitHub 库:https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)

简单来说,这篇论文研究了思维链(CoT)技术帮助 LLM 解决各式问题的有效性。

首先,该团队分析了近期的相关文献,比较了 CoT 与直接回答方法(DA)的性能表现。

之后,他们使用 20 个数据集和 14 个当今主流的 LLM 在零样本提示和少样本提示设置下进行了实验。

图 1 简单总结了这两项研究的结果。

o1带火的CoT到底行不行?新论文引发了论战

结果表明,CoT 能极大助益 LLM 解决涉及数学和符号推理的任务,至于其它任务,CoT 的效果并不显著甚至可能有损模型性能。

另一个发现是 CoT 能帮助提升执行计算和符号操作的执行步骤,但却比不上能使用外部工具的 LLM。这是什么意思呢?该团队发现,相比于使用直接回答方法,使用 CoT 时 LLM 能更好地生成可执行的形式化方案规划;但如果使用语言模型来生成方案规划,然后再使用外部符号解算器来求解该规划,性能表现还会更好一些。

这样的结果忽然让 CoT 的处境变得有点尴尬:在 CoT 有用的问题上,我们能使用外部工具做得更好;在另一些问题上,CoT 的能力又有限。

因此,该团队认为:「第一,很多广泛使用 CoT 解决的问题其实根本没必要使用 CoT:现在已有更高效方法,能以远远更低的推理成本取得相近的性能。第二,基于提示词的 CoT 不够用了,我们看到人们迫切地需要更复杂精妙的方法,比如基于搜索、交互式智能体或针对 CoT 进行过更好微调的模型的方法。」

文献研究

首先,该团队调研了近期的相关文献,比较了使用或不用 CoT 的提示词的效果。

具体指标和流程这里就不多介绍了。总之,他们从 110 篇论文(35 篇 ICLR 论文和 75 篇 NAACL 和 EACL 论文)中整理出了 1218 个实验结果,涉及 264 个数据集。之后,他们将这些相关任务分成了 14 类,表 1 展示了其中几类的定义。

o1带火的CoT到底行不行?新论文引发了论战

文献研究结果

图 2 展示了 CoT 为不同类型的任务带来的性能增量,即使用 CoT 提示法取得的性能减去使用直接回答法取得的性能。

o1带火的CoT到底行不行?新论文引发了论战

可以看到,在这些任务上,CoT 平均仅能带来 3.75% 的提升。其中 CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9,而不使用 CoT 的表现为 45.5。而在其它任务上表现较好的个例(图中用黄色高亮标记出了 10 个),也或多或少与这三个任务有关。

但在其它任务上,CoT 的表现就没什么亮点了,平均成绩仅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。该团队认为,这一点点提升甚至不能算作是提升,毕竟 CoT 的计算成本明显更高。

实验研究

除了研究近期文献,该团队也执行了实验,其中涉及到 20 个数据集和 14 个模型,并测试了零样本提示和少样本提示两种设置,见表 2。

o1带火的CoT到底行不行?新论文引发了论战

实验研究结果

下面我们通过对一系列问题的解答来了解实验结果。

1.在哪些任务上,零样本 CoT 优于直接提示?

图 3 左展示了 CoT 在五个推理类别(见图 1 右)上带来的平均性能增益;图 3 右则是 CoT 在每个数据集上带来的平均性能增益。

o1带火的CoT到底行不行?新论文引发了论战

可以看到,在非符号推理类别和数据集上,特别是那些主要包含常识(CSQA、PIQA、SiQA)、语言理解(WinoGrande)和阅读理解(AGI LSAT、ARC-Easy、ARC-Challenge)的问题上,零样本 CoT 和零样本直接回答的性能几乎没有区别。尽管这些数据集涉及推理,但 CoT 并没有带来增益。

相比之下,数学和符号类别(以及符号和半符号数据集)获得了更大的提升。CoT 在 MATH 和 GSM8k 上带来的增益分别高达 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符号数据集上,CoT 表现出了中等程度的增益。这些数据集需要应用逻辑规则才能得出答案,例如从简单的自然语言(ContextHub)或更复杂的常识性陈述(MuSR Murder Mysteries)中解析得到的一阶逻辑。

在少样本设置下得到的实验结果类似。

2.回答格式是否会影响 CoT 的有用性?

除了数学之外,许多常用的数据集都是多项选择题。该团队指出,对于两个非多项选择题的数据集(MuSiQue 和 BiGGen Bench,并且它们需要不同层级的非符号推理才能给出回答),CoT 的表现与直接回答相近。

因此,可以说回答格式对 CoT 的有用性的影响不大。并且,该团队还表示,预先针对正确响应进行规划或推理甚至可能妨碍 LLM 自由响应的能力。

3.CoT 在知识、软推理和常识推理方面带来的提升是否显著?

在 13 个涉及知识、软推理和常识推理的数据集上,该团队测试了 CoT 的表现,结果发现:答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在这三个数据集上,CoT 可以带来比较显著的增益。

详细研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是两个范围广泛的数据集,因此很难简单地描述它们的特征。该团队详细研究了 CoT 在 MMLU 中每个类别上的性能表现,以了解 CoT 在不同领域的性能差异。

表 3 给出了 CoT 能为 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上带来最显著提升的三个类别。

o1带火的CoT到底行不行?新论文引发了论战

可以看到,其中一些与数学有关,这不出人意料,但也有的属于「商业」等类别。不过更进一步研究发现,这些类别通常也涉及数学(比如资产计算等)。

因此,该团队对 MMLU 进行了更细粒度的研究(实例级)。他们发现问题或生成的响应中是否包含 = 这个符号非常关键,可以说是「符号推理的一个强有力的标志」。结果见图 4。

o1带火的CoT到底行不行?新论文引发了论战

可以看到,当有 = 时,CoT 在 MMLU 和 MMLU Pro 上的表现明显会更好。该团队认为这是因为 = 通常出现在数学问题中。所以归根结底,CoT 依然是能在数学问题上为 MMLU 和 MMLU Pro 带来助益。

CoT 在形式推理方面的优势和劣势

下面来解释 CoT 有助于符号推理任务的原因。很多符号和半符号推理任务都可以分成两个阶段:规划与执行。该团队也基于此思路进行了分析。

设置 1 和 2:少样本直接回答和 CoT:使用之前的少样本直接回答和 CoT 作为基线。图 5 给出了在 GSM8K 上每个设置的示例。

o1带火的CoT到底行不行?新论文引发了论战

设置 3 和 4:规划 + 直接求解器以及计划 + CoT 求解器。

设置 5:规划+工具求解器。

评估结果

图 6 展示了选出的代表性模型的结果。

o1带火的CoT到底行不行?新论文引发了论战

可以看到,对于许多数据集和模型而言,仅仅有规划不足以带来明显的性能增益。与直接回答相比,CoT 或规划+ CoT 求解器是实现强大性能所必需的。使用其中一种方法跟踪执行情况可带来最大的准确性优势,尤其是对于含有大量数学内容的数据集。

尽管 CoT 或规划+ CoT 求解器比直接回答和规划+直接回答更强,但规划+工具求解器在大多数情况下还要更优。也就是说,很多时候,使用 CoT 还不如让 LLM 使用工具。

今天关于《o1带火的CoT到底行不行?新论文引发了论战》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
PHP 函数使用安全注意事项PHP 函数使用安全注意事项
上一篇
PHP 函数使用安全注意事项
使用 Golang Goroutine 池实现高效的异步编程
下一篇
使用 Golang Goroutine 池实现高效的异步编程
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ljg-skills -
    ljg-skills
    ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
    888次使用
  • MELO音乐 - AI 音乐生成平台,支持多模态创作能力
    MELO音乐
    MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
    858次使用
  • UniScribe - AI 免费在线音视频转文字平台
    UniScribe
    UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
    796次使用
  • 剧云 - 免费 AI 智能中文剧本创作平台
    剧云
    剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
    988次使用
  • 万象有声 - AI 一站式有声内容创作平台
    万象有声
    万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
    958次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码