当前位置:首页 > 文章列表 > 科技周边 > 业界新闻 > 从悟道到悟界,智源开启大模型新纪元

从悟道到悟界,智源开启大模型新纪元

2025-07-06 22:10:04 0浏览 收藏

在人工智能技术蓬勃发展的当下,国产大模型正从追随者向特定领域引领者转变。智源研究院作为中国大模型“悟道”的开创者,始终肩负本土原始创新的重任,其推出的“悟道”系列大模型开启了中国的大模型时代。在2025智源大会上,智源重磅发布“悟界”系列大模型,包含原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2,寓意着智源致力于突破数字与物理世界的藩篱,将大模型的强大认知能力真正注入并重塑现实世界,推动大模型由数字AGI时代迈向物理AGI时代。智源通过“悟界”对虚实世界边界的突破和对物理世界的深度赋能,引领世界模型成为AGI核心路径的新浪潮。

从「悟道」到「悟界」,智源走进大模型的新时代

“大模型技术的演进远未抵达终点”,在2025智源大会召开之际,面对PHP中文网关于“大模型发展现状”的疑问,智源研究院院长王仲远给出了这样的回复。

OpenAI 仍领跑通用性能与复杂推理,但国产模型已从追随者转向特定领域的引领者,DeepSeek-R1 持续引领低成本推理,阿里4月发布的Qwen3登顶全球最强开源模型。OpenAI依然在推进着探索步伐,国产模型紧追不舍。

我们必须清醒认识到,当前的 AI 技术仍处于高速迭代的深水区,大量基础性、挑战性的难题远未被攻克,技术路径与创新范式远未定型,AGI之路仍然道阻且长。

中国在人工智能领域的研究,既不应满足于亦步亦趋的跟随,更不应止步于对标 OpenAI。 早在2018年大模型机遇初现时便成立的北京智源人工智能研究院,作为中国大模型「悟道」的开创者,始终肩负着本土原始创新的重任。

「悟道」之名,承载了智源对通用智能技术路径的深刻求索。

一位早期参与「悟道」研发的核心成员曾向 AI 科技评论强调,智源在浪潮初起时的“前瞻眼光与果断魄力”是其最可贵特质,尤其是在国内大模型起步维艰之际,其毫不犹豫的经费与算力支持起到了关键作用。可以说,在通用人工智能的探索之路上,智源研究院以「悟道」系列大模型为起点,开启了中国的大模型时代。

大语言模型和多模态模型的发展,进一步推动机器人从1.0时代迈向2.0时代。目前,大模型与机器本体深度耦合驱动以具身智能为核心的机器人2.0时代,正在加速数字世界与物理世界融合。

而在今天举办的第七届“北京智源大会”上推出的「悟界」,深刻寓意着智源致力于突破数字与物理世界的藩篱,将大模型的强大认知能力真正注入并重塑现实世界。从此,大模型由数字AGI时代迈向了物理AGI时代。

「悟界」系列大模型目前包含四个模型:原生多模态世界模型Emu3、全球首个脑科学多模态通用基础模型见微Brainμ、具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2。

从微观生命体到具身智能体,「悟界」系列大模型试图揭示生命机理本质规律,构建人工智能与物理世界交互基座。如果说「悟道」对通用智能的求索,那么「悟界」就是对虚实世界边界的突破和对物理世界的深度赋能。在世界模型成为 AGI 核心路径的当下,智源成为了新浪潮的领航员。

1
当大语言模型性能走到瓶颈

当前大语言模型的性能提升正面临显著瓶颈,主要源于互联网高质量训练数据的枯竭与同质化竞争。

随着公开可获取的有效文本、代码资源被大规模消耗,模型难以获得足够新颖、多样且优质的训练素材,导致学习边际效益锐减。

尽管模型架构优化与算力提升仍在持续,但核心知识的获取效率已明显下滑,性能增长曲线趋于平缓。突破这一瓶颈需依赖合成数据生成、多模态融合或小样本学习等技术的革命性突破。

早在去年的北京智源大会上,智源就对大模型的技术路线进行了预判,这条路线将会是从大语言模型往多模态、尤其是原生多模态世界模型的方向发展。这一年来,智源朝着这条路线进行了坚定探索。

在2025年北京智源大会上,智源重磅介绍了原生多模态世界模型Emu3,这是全球首个原生多模态世界模型,是多模态技术发展的重要里程碑。

跨模态交互的强大基座

Emu3是基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,在多模态混合序列上从头开始联合训练一个Transformer模型。

从「悟道」到「悟界」,智源走进大模型的新时代

智源研究院院长王仲远

“走向物理世界的多模态模型的技术壁垒在模型本身,因为技术路线就没有收敛。”王仲远说。

当前主流方案普遍存在这样的一种困境:当以强大的语言模型(LLM)作为基座,融合视觉、听觉等模态进行训练时,语言能力常出现显著退化。这导致训练出来的模型语言能力与其他能力此消彼长,无法统一。

虽然在某些垂直领域中,多模态的某些能力比人类更强,比如人脸识别,机器的识别能力是人的无数倍,但是人类大脑不会因为收到更多信息之后突然不会说话了。为什么会出现这种问题,以及如何解决这种问题,成为了智源在研发Emu3的过程中希望探索的技术原理。

传统模型则只能处理一种类型,而该模型实现了视频、图像、文本三种模态的任意组合理解与生成。

Emu3架构从根本上规避了传统多模态模型的“此消彼长”缺陷:视觉语义不再挤占语言参数空间,而是通过符号化对齐实现知识无损融合。Emu3验证了“物理世界离散语义化” 路线的可行性,为多模态AGI提供了可扩展的技术收敛框架,使语言模型的推理生成能力首次真正覆盖物理时空维度。

这款模型支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。可以说,作为原生多模态统一架构,智源的Emu3让大模型初步具备理解和推理世界的能力。

见微Brainμ和OpenComplex 2

基于Emu3的底层架构,智源研究院推出了见微Brainμ。这也是本次北京智源大会最引人注目的模型之一。

从「悟道」到「悟界」,智源走进大模型的新时代

它将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,并且具备强大的多模态对齐能力,能够实现脑信号与文本、图像等模态的多向映射,支持跨模态的理解与生成。在能力方面,见微Brainμ可以完成多种神经科学任务,如自动化睡眠分型、感官信号重建和多种脑疾病诊断等。

Brainμ实现了跨任务、跨模态、跨个体的统一建模,具有创新性、通用性和广泛的应用潜力,为神经科学和脑医学研究提供了强大的工具。现在,智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。

全原子微观生命模型OpenComplex2,则是实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。

OpenComplex2模型在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中性能卓越,突破了静态结构预测的瓶颈。不仅可以预测蛋白质单体结构,还可进行复合物结构建模、分子间相互作用预测等,为探索蛋白质的生物学功能提供了新的途径。

智源研究院发布的多模态大模型是为了推动AI从数字世界走向物理世界,更利于解决物理需求。目前,物理世界的多模态现在还没有完全解决,以智源为代表的全球研究机构都会在这条道路上进行不懈探索。

2
向着前沿技术路径预研和探索

在今天的智源具身智能会客厅中,银河通用的具身大模型机器人Galbot登台展示了端到端VLA大模型在商业零售场景的落地应用。

从「悟道」到「悟界」,智源走进大模型的新时代

宇树G1登台,展示了敏捷帅气的“组合拳”。

从「悟道」到「悟界」,智源走进大模型的新时代

全球首个人形机器人半程马拉松冠军天工2.0完成“准备甜点”的精细化服务任务,获得满堂喝彩。

从「悟道」到「悟界」,智源走进大模型的新时代

2025智源大会,设置了智源研究院AI科研成果互动体验展台,带来了从具身智能到脑科学、数字心脏等领域的最新应用。

看到这个场景,我们不禁想问,在具身智能发展如火如荼、多家企业纷纷加大投入,致力于推动这一前沿技术的研发与应用的现在,智源还能做什么?

答案一直就在智源的定位中——做高校做不了,企业不愿意做的事情,预研和探索前沿技术路径。

在具身智能领域,伴随着中国在制造业、丰富的场景、政策支持上的优势,智源所做的跨本体具身大小脑协作框架RoboOS 2.0和具身大脑RoboBrain 2.0,再次为产业发展注入新动力。

跨本体具身大小脑协作框架RoboOS 2.0

RoboOS 1.0发布于2025 年 3 月 29 日,到现在为止,不到3个月的时间,智源就发布了它的升级版,跨本体具身大小脑协作框架。

跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架。

同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。

在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的1/10。

相较于1.0,RoboOS 2.0对端到端推理链路进行了系统级优化,整体性能提升达30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍。在功能层面,新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。

具身大脑RoboBrain 2.0

智源研究院发布的具身大脑 RoboBrain 2.0 是目前全球最强的开源具身大脑大模型,它在空间推理与任务规划等关键指标上展现出卓越的性能,全面超越了众多主流大模型。

从「悟道」到「悟界」,智源走进大模型的新时代

RoboBrain2.0官网:https://superrobobrain.github.io

RoboBrain 2.0 的优势在于其能够精准地理解和推理复杂空间关系,并制定高效的任务规划方案。例如,在机器人导航、物体操控以及多步骤任务执行等场景中,它能够快速准确地分析环境信息,确定最优行动路径和操作方式。

这使得机器人在各种实际应用场景中,如物流配送、家庭服务、工业生产等,能够更加高效、智能地完成任务,极大地提升了机器人的自主性和适应性。

在任务规划方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体-环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(Scene Graph),并自动完成跨本体的任务规划。

实验数据显示,RoboBrain 2.0的任务规划准确率相较RoboBrain 1.0实现了74%的效果提升。

在空间智能方面,RoboBrain 2.0在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了17%的性能提升。

同时,RoboBrain 2.0增加了空间推理能力(Spatial Referring),新增了闭环反馈以及具身智能的深度思考能力。

当下的具身智能大模型面临“不好用、不通用、不易用”的特点。“不好用”是指具身大模型远没有到ChatGPT时刻;“不通用”是指具身大模型只能用于一个本体或同一品牌的本体;“不易用”是指大脑、小脑本体的适配难度比较高。

智源发布的RoboOS 2.0提升机器人多任务处理与环境适应力,RoboBrain 2.0强化其感知理解和决策规划。 二者都是为解决这三大问题而存在,现在已全面开源,包括框架代码、模型权重、数据集与评测基准,以助力推动具身智能研究和产业应用的发展。

目前,智源研究院已与全球20多家具身智能企业建立战略合作关系,共同打造开放繁荣、协同共生的具身智能生态体系,为全球研究者和开发者提供了一个强大的基础平台,促进了具身智能技术的交流与创新。

3
通往AGI的漫漫征程

在今天上午智源大会主论坛上,图灵奖获得者 Richard Sutton在线发言,“现在世界所发生的一些进展都已经证明了我们向通用人工智能发展,”他再次强调了他所坚持的,“我们已经来到了经验的时代。”

然而,一个共识则在于,AGI的研发需要持续的跨学科研究与探索,预计在未来十年甚至更长时间才能看到显著进展。

深度推理模型仍是 AI 认知与逻辑能力的基础,例如语言理解、复杂问题拆解等场景不可或缺,强化学习在动态环境交互中展现的能力是不可替代的。

目前,AI在特定领域的表现已经取得了显著成就,但是通用人工智能(AGI)仍处于发展初期。AGI的实现需要在多个方面实现重大突破。

智象未来创始人兼CEO 梅涛在本次大会的大模型产业CEO论坛上说,“现在的大模型,无论是大语言模型还是视频模型,其实都没有产生新的智能,都是在复制这个世界。”

如何才能产生智能呢?这是一个目前无法收敛的问题。基础模型重要,强化学习也很重要。发展需要多元技术融合,而非单一路径主导。智源研究院拓展原生多模态,也是希望去发现是否有其他的多模态技术路径和技术架构。

多模态的ChatGPT时刻仍未到来。Sand.AI CEO曹越将目前的多模态模型发展阶段比作2018年的BERT,难以Scalable成为了最大的痛点。

我们能够对世界真正建模吗?对于王仲远而言,要解决这个事情,难度非常大,不仅仅是一个技术路线的突破,还是一种理念的突破。

“人工智能再往下发展,一定要解决对于空间、时间与物理世界交互,对于宏观世界、微观世界的理解,这也恰恰是智源研究院做的研究方向。”

本篇关于《从悟道到悟界,智源开启大模型新纪元》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于科技周边的相关知识,请关注golang学习网公众号!

RESTful接口开发与JSON返回教程RESTful接口开发与JSON返回教程
上一篇
RESTful接口开发与JSON返回教程
Win8初始化大概需要多久?详细解析
下一篇
Win8初始化大概需要多久?详细解析
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    509次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • AI边界平台:智能对话、写作、画图,一站式解决方案
    边界AI平台
    探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
    39次使用
  • 讯飞AI大学堂免费AI认证证书:大模型工程师认证,提升您的职场竞争力
    免费AI认证证书
    科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
    67次使用
  • 茅茅虫AIGC检测:精准识别AI生成内容,保障学术诚信
    茅茅虫AIGC检测
    茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
    185次使用
  • 赛林匹克平台:科技赛事聚合,赋能AI、算力、量子计算创新
    赛林匹克平台(Challympics)
    探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
    267次使用
  • SEO  笔格AIPPT:AI智能PPT制作,免费生成,高效演示
    笔格AIPPT
    SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
    206次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码