当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板

智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板

来源:机器之心 2024-11-20 15:46:11 0浏览 收藏

哈喽!今天心血来潮给大家带来了《智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板》,想必大家应该对科技周边都不陌生吧,那么阅读本文就都不会很困难,以下内容主要涉及到,若是你正在学习科技周边,千万别错过这篇文章~希望能帮助到你!

前些时日,AI 大模型开始掌握操作计算机的能力,但整体而言,它们与物理世界互动的能力仍处于早期阶段。

为了提高 LLM 在复杂的现实世界中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问题(不过依然还相对简单)。

在现实世界中,一个难题的解决方案往往都不是孤立存在的,而需要系统性的方法。这就促使人们开始研究如何让 LLM 通过顺序或并行模块处理智能体任务,从而动态地、分步骤地解决问题。

近日,华为诺亚方舟实验室、伦敦大学学院(UCL)和达姆施塔特工业大学的一个研究团队在这个研究方向上做出了自己的贡献。他们采用第一性原理方法,将数据的分析、处理和预测(即数据科学)作为 LLM 与现实世界环境和外部系统交互的核心和可迁移技能,得到了一种利用 LLM 解决系统数据科学任务复杂性的新方法。然后他们基于此开发了智能体 Agent K v1.0,并让其参加了多模态 Kaggle 竞赛。最终 Agent K v1.0 获得了相当于 6 金 3 银 7 铜的成绩,成为首个达到 Kaggle Grandmaster level 1 的 AI 智能体。

智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
  • 论文标题:Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
  • 论文地址:https://arxiv.org/pdf/2411.03562

研究动机

这项研究有三个研究动机。

第一,数据科学的目的是从结构化和非结构化数据中提取见解和知识,从而解决各种复杂问题。这需要系统级的方法,需要自动化和优化来适应具体的任务目标。

举个例子,在 Kaggle 数据科学竞赛中(如图 1 所示),数据科学家需要遵循一个结构化的工作流程:收集、清理、预处理和标准化数据,创建数据加载器以实现高效管理,生成关键评估指标,以及开发自定义模型。然后,这些见解和预测可以为决策和优化提供信息。因此,为了解决这些工作流程,需要数据科学智能体将任务分解为子问题并与各种子系统交互以实现指定目标。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
第二,数据能让 LLM 感知和理解外部环境(物理和虚拟皆可)。LLM 智能体可通过收集、清理和分析这些数据来获得有意义的见解并做出明智的决策。数据和动作之间的这种基本联系可将计算推理与有形的现实世界后果联系起来。

第三,数据科学对企业而言至关重要。数据科学可将原始数据转换成可行动的见解,并由此提升效率和竞争力,进而推动创新。因此,据 Grand View Research 预计,到 2031 年,全球对数据科学的投资将达到约 7400 亿美元。数据科学智能体可通过生成代码来自动执行数据清理、建模和预测等任务,从而扩大这种影响,使组织能够扩展其数据驱动的决策,以最大化回报和利润。

结构化推理造就强大数据科学智能体

华为诺亚方舟实验室首先确定了 LLM 智能体面临的两大难题,即自动化和优化。这些难题源自数据科学工作流程的复杂性和多面性。

为此,该团队提出了一种利用 LLM 解决系统数据科学任务复杂性的新方法。

具体来说,他们提出了一种灵活的「学习到推理」范式,从而无需反向传播和微调就能实现学习和适应。

该团队假设 LLM 具有固有的基于案例的推理能力,这让它们可使用过去的正例或负例经验,并将其泛化到新任务。通过优化这些经验,学习和适应可以自然地发生。

为了将这一观察利用起来,该团队提出了结构化推理(structured reasoning),其中集成了一个记忆模块,从而可以动态地利用过去的成功和失败经验来实现更据适应性的学习。这能克服思维链等方法的局限性。如图 2 所示。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
左侧是基本思维链推理,其按顺序生成中间步骤,其中每个步骤都是下一步骤的直接条件,直到得到最终答案。

右侧是新提出的结构化推理方法,它引入了一个记忆模块(作为 RAG 或长上下文的一种形式),可以根据外部奖励和反馈进行优化。该模块可根据环境反馈动态地修改存储的内容,让智能体可在不改变底层 LLM 参数的情况下学习和适应,进而根据具体目标最大限度地提高性能(有效性和自动化)。

有了结构化推理之后,LLM 智能体可在内部重构自身,通过灵活和内在的(智能体内部的)自我反思功能实现主动推理,并在采取外部行动之前主动适应。

他们将这个智能体称为 Agent K v1.0,这是他们的结构化推理框架 Pangu-Agent 的一个扩展,但它也是专门为应对数据科学挑战设计的。

该团队为 Agent K v1.0 引入了新的内部函数类别,以便在自动解决数据科学任务之前自动设置它们。他们还引入了另一组可与外部工具(如超参数优化算法、集成方法、计算机视觉和自然语言处理库)协作的内部函数,从而可以最佳方式构建解答。

下图展示了 Agent K v1.0 实现自动设计、编程和执行所需的整体数据科学工作流程:首先从一个 Kaggle URL 开始,再生成执行代码清理、特征工程、模型创建和优化训练的复杂代码,之后再自动生成一个提交文件,并将其提交给 Kaggle 以获得分数。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
第一阶段(自动化):设置数据科学任务

由于数据科学任务的数据类型和格式繁多,因此设置阶段并不轻松。图 4 展示了这个自动设置阶段的主要步骤。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
在抓取到任务后,该策略又分为两个阶段:

  • 首先,编写一系列有效代码,以自动设置每个模态的训练和测试数据加载器。每个阶段步骤都由单元测试引导,LLM 可以使用这些单元测试来反思和生成更好的代码。之后,引入了一组联合单元测试,让智能体执行跨步骤反思以进行 credit 分配。
  • 完成这些后,Agent K v1.0 执行格式化数据生成的第二阶段,其中会生成提交格式和度量函数代码。到这个阶段结束时,任务 t 已被设置好,可以解决了 —— 这里还会用一个最终单元测试来检查。

第二阶段(优化):解决数据科学任务

数据科学工作流程的这一部分通常涉及许多步骤,包括生成脚本以预处理输入、创建各种模型或优化超参数。

由于可以进行多次尝试,并且每个解决方案都是复合工作流程的结果,因此要实现非常有竞争力的性能,需要能够推断每个解决方案组件的优势和劣势,并决定修改哪个部分或下一步尝试什么。

在这里,该通过智能体的外部动作将这些决定留给了智能体,并使用针对数据驱动的预测设计量身定制的几种工具为其提供支持。

第三阶段(泛化):多任务和主动任务选择

有效的智能体应该有能力解决不同领域的多种任务。该团队还为 Agent K v1.0 配备了跨领域的任务求解能力,其做法是将之前的设置泛化到多任务设置。并且,他们注意到了多任务解决方案的不可行性,于是还提出了一种在线持续学习扩展。

下图展示了 Agent K v1.0 智能体的总体设计。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
按照 Kaggle 的设置,Agent K v1.0 只需要自然语言描述和非标准化原始数据即可成功完成任务。在每一轮 j 中,它会根据之前尝试过的任务的历史记录主动选择要解决的数据科学任务,并将其填充到随时间变化的向量数据库 RAG_j 中。这种选择是策略 π_1 (・) 基于 RAG_j 和一个剩余任务池执行的。

选择了任务之后,Agent K v1.0 会使用 π_setup (・) 自动执行标准化、清理任务数据、 准备训练和测试指标等操作。这个过程同样基于 RAG_j。

设置完成后,Agent K v1.0 就会尝试解决任务,这个过程会访问工具并根据分数反馈进行改进。这些 Python 日志会对 RAG_j 进行更新,并重复此过程。

竞争性数据科学基准

当前的数据科学智能体缺乏竞争性基准测试,这限制了它们在专业领域的表现。为此,该团队也做出了自己的贡献:基于 Kaggle 竞赛构建了一个多样化且竞争性的数据科学基准,而 Kaggle 提供了 27K 个多样化数据集、110 万个笔记本、超过 7.7K 个预训练机器学习模型和大约 27K 场比赛。

该基准支持在一个透明的排行榜上与人类参与者进行直接比较并涵盖计算机视觉、自然语言处理、时间序列和表格数据等多种任务,支持多种模态。

下图展示了该基准中 Kaggle 任务的分布情况。目前,其中 55% 是表格任务,包括数值、类别、字符串和布尔值表。另外计算机视觉站 24%,自然语言处理占 10%、多模态任务占 11%。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
下表则是基于 Kaggle 的指南和风格构建的 Kaggle 进展系统。⋆ (Top 10 + 0.2 %)  是指竞赛每增加 500 个参赛队伍,就会额外给出一枚金牌。举个例子,如果一个竞赛有 500 个参赛队伍,则会给 11 团队授予金牌。而如果竞赛队伍有 5000 个,则金牌数会达到 20。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
实验和结果

Agent K 表现如何?终究还需看实验结果。该团队严格测试了 Agent K v1.0(基础模型使用了 Qwen-2.5 72B)实现完全自动化的能力以及性能。

在自动化方面,他们评估了新系统能否有效地直接根据 Kaggle URL 设置任务。结果,在跨多个领域自动执行任务方面,该系统实现了 92.5% 的准确度,展示了其完全自动化地实现复杂设置的能力。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
在性能方面,在多模态挑战赛中,该团队的方法实现了相当于 6 金 3 银 7 铜的成绩(共 65 场竞赛),成为了首个达到 Kaggle Grandmaster level 1 水平的方法。下图展示了 Agent K v1.0 在各个任务上的性能表现。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
此外,他们还测量了 Agent K v1.0 与人类参与者的 Elo-MMR 评分。结果表明,在由 5856 名参赛者组成的竞赛池中,Agent K v1.0 排名前 38%。
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
实验详情和更多实验结果以及相关讨论请访问原论文。

以上就是《智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板》的详细内容,更多关于产业,AI 智能体的资料请关注golang学习网公众号!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Win11麦克风无插座信息怎么办 Win11麦克风无插座信息解决方法Win11麦克风无插座信息怎么办 Win11麦克风无插座信息解决方法
上一篇
Win11麦克风无插座信息怎么办 Win11麦克风无插座信息解决方法
新电脑win10怎么分区合理
下一篇
新电脑win10怎么分区合理
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    12次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    23次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    27次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码