当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

来源:机器之心 2024-09-28 12:39:58 0浏览 收藏

科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!


「这相当于在理论上,两层神经网络在理论上可以拟合任何数据,我们就盲目相信并应用在所有场景中。」


大模型新范式 OpenAI o1 一经发布,如何「复刻」出 o1 便成为了 AI 圈最热的话题。

由于 OpenAI 对技术细节守口如瓶,想从 AI 那里「套话」,让它复述完整的内部推理过程,多问几句,OpenAI 直接发邮件警告要撤销你的使用资格。想从技术报告中想找出点蛛丝马迹,也同样困难。于是,大家将目光转向了以往类似的研究成果,希望从中找到些线索。

比如,Google Brain 推理团队创建者 Denny Zhou 立刻拿出了他在今年 5 月份发表的论文:《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》。这篇论文的作者阵容也很豪华,除了 Denny Zhou,还有斯隆奖得主马腾宇以及他的两位学生。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
  • 论文链接:https://arxiv.org/abs/2402.12875
Denny Zhou 表示,他们已经在数学上证明,只要允许 Transformer 模型生成足够多的中间推理 tokens,它们就能解决任何问题,让 LLM 的推理没有上限。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
概括起来,这篇论文主要证明了引入思维链(CoT)能够显著提升 Transformer 的表达能力,使其能处理更加复杂的问题。

加入 CoT
1 层的 Transformer 也能做复杂推理题

一直以来,大家都在寻找突破 Transformer 架构的方法。Transformer 虽擅长并行计算,却难以处理串行推理。并行计算意味着模型可以同时处理多个步骤,对于需要逐步推理的问题尤为重要。

对此,论文作者们提出了一个假设:CoT 可以帮助 Transformer 完成原本无法做到的串行计算。

论文作者们采用了电路复杂性(circuit complexity)来讨论 Transformer 的能力。

电路复杂性按复杂程度分为不同类别,如:

  • AC⁰:仅使用 AND、OR、NOT 门,深度为常数,通常适用于比较简单的并行计算问题。
  • TC⁰:扩展了 AC⁰类问题,增加了多数决定门(MAJORITY gates),能处理更复杂的并行计算问题。

此前的研究已经表明,仅解码器架构的 Transformer 能够高效并行计算,但它们的计算能力有限,只能解决通过 TC⁰类电路能够计算的问题。如果限制条件更加严格,不允许使用多数决定门时,Transformer 的计算能力只能解决 AC⁰类问题。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
论文指出,没有 CoT 时,Transformer 的串行计算次数受到模型深度的限制,深度越大,能处理的串行计算步数越多。但深度是固定的,无法随任务增加而增长。引入 CoT,则解决了这个问题,能让 Transformer 生成 T 步的中间步骤,增加串行计算的次数到 T。

CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

论文进一步证明,如果 Transformer 的嵌入维度与输入序列长度的对数成比例,并且配备 T 步的中间步骤,那么该 Transformer 能够模拟大小为 T 的布尔电路,进而解决 P/poly 类问题。如果 T 值线性增长,Transformer 可以处理所有正规语言的问题,包括 S₅ 这样的复杂群组合问题

为了验证上述理论分析,作者通过实验比较了引入 CoT 前后,Transformer 在解决模加法、排列组合、迭代平方和电路值问题这四个核心任务上的表现。实验分别在三种设置下进行:

  • Base 模式:模型直接生成结果,目标是最小化预测结果与真实值之间的差距。
  • CoT 模式:在每个问题上为模型手动设计了思维链,评估模型是否能够正确预测整个思维链中的每个 token。
  • Hint 模式:为模型提供部分提示信息,帮助其更好地生成中间步骤。对于 Base 模式和 Hint 模式,直接评估最终答案的准确性。

模加法(Modular Addition)

给定任意正整数 p,这个任务的目标是通过模运算来计算一个词表的和。论文作者按照以下方式生成序列 x = (x₁, ..., xₙ):对于每个 i ∈ [n − 1],从 {0, 1, ..., p − 1} 中独立采样 xᵢ,并将 xₙ设为 '='。模运算结果为:CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢;引入 CoT 后为,CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

如下图所示,当 p=7 时,浅层 Transformer 在有提示的情况下能够很好地解决输入序列较短时的问题,但使用 CoT 时,尤其是在较长的输入序列中,模型的表现要好得多。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
排列组合(Permutation Composition)

给定一个自然数 p,该任务的目标是对词表 {1, . . . , p,(,), =} 中的所有元素进行排列组合,得到 CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢。最终输出是将所有排列组合整合在一起的结果:CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

对于 CoT 模式,Transformer 不直接计算最终结果,而是逐步地、部分地进行计算。

下图展示了排列组合(S₅)在 Hint 模式和 CoT 模式两种不同模式下的表现,其中横轴表示输入序列的长度,纵轴表示模型的层数,颜色代表准确率。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
在 Hint 模式下,即使 Transformer 有 12 层,准确率仍然非常低,基本维持在 20% 左右,几乎是在 1-5 之间随机猜测的水平。只有当输入序列长度非常短(长度为 3)且层数较多时,准确率才能有所提高,但仍然不超过 56%。

在 CoT 模式下,Transformer 表现显著提高。无论序列长度多长,准确率都接近 100%。当序列长度增加至 33 和 36 时,层数为 1 的模型准确率有所下降,分别为 54% 和 46%,但这仍然远高于 Hint 模式的表现。

迭代平方(Iterated Squaring)

迭代平方问题在密码学中被广泛用于构造加密算法。它之所以重要,是因为该问题被认为计算难度很高,即使使用非常强大的并行处理器,也无法在合理时间内找到有效的解决方法。具体来说,给定三个整数 r、n、p,Transformer 需要计算 :CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

如下图所示,随着模型层数和输入长度的增加,Hint 模式下,Transformer 的表现逐渐变差。对于较短的输入长度(如 6 和 14),即使层数较少,Transformer 仍然能保持相对较高的准确率(分别为 94% 和 89%),但当输入长度增加到 30 或更长时,准确率显著下降,尤其是模型层数较少时。

而在 CoT 模式下,无论序列长度和模型层数如何,Transformer 的表现都保持了 100% 的准确率。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
电路值问题(Circuit Value Problem)

要计算电路值问题,模型需要根据输入:CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢,计算出电路最后的逻辑门 m 的值。

如下图所示,在 Hint 模式下,在序列长度较短时,准确率还能保持 100%,但当长度较长时,准确率有大幅下降。使用 CoT 后,即使 Transformer 只有 1 层,就能达到接近 100% 的准确率。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
更多研究细节,请参考原论文。

理论很丰满,现实却很骨感?

CoT 对 Transformer 的增益如此强大,这令人不禁联想:o1 思考时间的时间越长,准确率也会提升,或许这个思路正与 o1 的核心理念不谋而合?
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
看到能为更强大的 LLM 推理新范式的曙光初现,评论区一片沸腾,纷纷送上祝贺:如果这项研究是真的,那么 AGI 可能很近了……
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
与此同时,这篇论文也引发了不少争议。

比如有网友提出质疑,「所有问题都解决了,那大模型会出幻觉的问题解决了吗?」
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
网友进一步发难:「这种方法能算是真正基于意义的推理吗?因为它没有考虑中间层也可能会产生幻觉的问题。这感觉更像是从一堆解决方案叠加在一起,然后挑出重合的部分?不就是单纯增加了正确的概率而已?」

此外,这发生在检索阶段,而非在训练阶段,也就是说模型还是不能实时学习,无法随着输入更多数据不断改进......
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
还有网友指出,虽然论文中通过「模拟门电路运算」等实验从理论上进行了证明,但这样的模拟方式可能不能完全反映出大模型在真实环境中的行为。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
比如对量子模拟、医学诊断等领域可能就没什么说服力。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
更令人担忧的是,这种方法在现实中很难实现,因为它需要极大的计算资源和时间,而这些都会随着输入规模呈指数级增长。

「要达到人类级别的智能,暴力解法可能需要为每个问题生成上亿种解决方案。这就是为什么单靠扩展计算能力行不通。人类解决问题时不会考虑成千上万种可能性,而是凭直觉和推理迅速缩小到几个可行的选项。如果我们想实现 AGI,AI 系统也需要模仿这种高效的方式。」
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
按这个思路想下去,不少网友缓缓地打出了一个问号:这不就是智能时代的「无限猴子定理」吗?让一只猴子在打字机上随机地按键,只要给它的时间够多,它最终必然能打出任何给定的文字,无论是《红楼梦》还是《莎士比亚全集》。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
Hacker News 甚至就这点讨论出了一座高楼,但大多数人还是觉得,既然 ICLR 2024 都接收了这篇论文,那应该没有问题吧?
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
随着论文热度的不断攀升,田渊栋和 LeCun 等业内大佬也亲自下场发问:「CoT,真的有这么神奇吗?」

田渊栋指出,Denny Zhou 等人提出了一种理论上的假设,实际操作中可能远没有那么简单。
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

尽管 CoT 非常有用,但我并不完全同意仅靠盲目扩展它就能解决所有问题。论文中提出了一种通用理论 —— 我们可以显式地构建 Transformer 的权重,使其更好地适应特定任务。虽然模型的深度可以保持常数,但 CoT 的长度可能会非常长,而这种权重能否通过梯度下降算法学到,仍是未知数。


他用了一个形象的比喻来说明这个问题:这有点像「在理论上,两层神经网络在理论上可以拟合任何数据,我们就盲目相信并应用在所有场景中」

相比之下,人类的推理链非常简洁,即使面对从未见过的问题,也能迅速抓住解决问题的关键。田渊栋认为,如何学习或构建出这样的表示,是一个令人着迷的课题。

看到学生的评论,Yann LeCun 也发来了声援:「我本来想说这个的,但被渊栋抢先了。」
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
作为「深度学习三巨头」之一,LeCun 表示:「两层网络和核机器(kernel machines)可以无限逼近任何函数,因此我们不需要深度学习。你可能不敢相信,从 1995 年到 2020 年,我听过多少次这种论点!」

LeCun 进一步解释道:「理论上是可行的,但问题在于,实际应用中,如果只使用两层网络,第一层的神经元数量可能会多到不可操作。」

针对「两层MLP」这个比喻中的问题,专注于生物学领域的 AI 研究实验室 EvolutionaryScale 的联合创始人 Zeming Lin 提出了自己的想法:

「我认为我们需要为机器学习模型构建类似乔姆斯基层次结构的框架。比如,是否存在适用于机器学习模型的 NP、P、O (n^2) 等概念,并明确 Transformer 或 Mamba 在这个层次结构中属于哪一类。」
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
田渊栋表示支持:「因为涉及不同的数据分布、模型架构、学习算法、后处理等等,问题远比想象的要复杂得多。」

虽然田渊栋可能并不完全认同这篇论文的思路,但他并没有否定继续尝试的必要性。

而这篇可能证明了 CoT 能赋予基于 Transformer 架构的 LLM 更强推理能力的论文却让一向「不太喜欢」AGI,多次称 LLM 无法实现 AGI 的 LeCun 遭到了更尖锐的质疑:
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢

我还记得你曾说过,LLM(GPT)不是 AI,也永远无法达到 AGI,因为它无法进行推理。

然而,现在通过 CoT+RL,它可以推理了。这篇论文只是证明了其他人一直以来所做的是正确的,一如既往。

为什么 Meta 反对通往 AGI 的主流路径?难道只是因为你个人不喜欢 Google 和 OpenAI 吗?

也许正如这位网友所说,「似乎有人已经知道如何拓展 CoT 了。OpenAI 看起来对此非常有信心。」
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
至于这场争论的焦点:CoT 是否真的能让 Transformer 解决所有问题,显然还需要更多研究来验证。

在最终结论揭晓前,你怎么看呢?

本篇关于《CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
如何使用 Python 降低歌曲的音调如何使用 Python 降低歌曲的音调
上一篇
如何使用 Python 降低歌曲的音调
PHP函数在区块链开发中的机遇
下一篇
PHP函数在区块链开发中的机遇
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 笔灵AI生成答辩PPT:高效制作学术与职场PPT的利器
    笔灵AI生成答辩PPT
    探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
    20次使用
  • 知网AIGC检测服务系统:精准识别学术文本中的AI生成内容
    知网AIGC检测服务系统
    知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
    29次使用
  • AIGC检测服务:AIbiye助力确保论文原创性
    AIGC检测-Aibiye
    AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
    35次使用
  • 易笔AI论文平台:快速生成高质量学术论文的利器
    易笔AI论文
    易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
    43次使用
  • 笔启AI论文写作平台:多类型论文生成与多语言支持
    笔启AI论文写作平台
    笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
    37次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码