智谱MaaS上线10B级VLM,Agents应用新突破
在上海举行的智谱开放平台产业生态大会上,智谱发布了其最新的MaaS平台成果,重点推出了10B级效果最佳的通用视觉语言模型GLM-4.1V-Thinking,并在28项权威评测中,有23项达到10B级模型最佳成绩。该模型在图文理解、数学科学推理、视频理解等任务中表现出色,为多模态推理带来突破。同时,智谱还上线了Agent聚合平台“应用空间”,通过联动Z基金启动“Agent开拓者专项扶持计划”,旨在激活行业场景下的AI能力,构建面向千行百业的AI生态市场。这一系列举措标志着智谱正加速迈向AGI,并致力于推动AI原生应用的发展与普及。
7月2日,智谱开放平台产业生态大会在上海浦东张江科学会堂隆重举行。本次大会吸引了众多政府领导、头部开发者与企业用户齐聚一堂,集中展示了智谱在多模态智能与MaaS生态方面取得的突破性成果。会上,浦东创投集团和张江集团联合宣布对智谱进行战略投资,为构建可信的人工智能基础设施注入强大动力。
智谱CEO张鹏在主题演讲中揭晓了智谱携手生态伙伴迈向AGI(通用人工智能)进程中的两大重磅成果:其一是开源推出新一代通用视觉语言模型GLM-4.1V-Thinking,该模型以推理能力为核心优势,刷新了10B级别多模态模型性能纪录;其二是MaaS平台正式上线Agent聚合平台「应用空间」,全面激活行业场景下的AI能力,并联动Z基金启动“Agent开拓者专项扶持计划”。
此外,在大会的主题演讲环节中,智谱高级副总裁吴玮杰、蒙牛集团副总裁兼首席数智官李琤洁、中国银联金融科技研究院副院长吕旭峰分别分享了大模型落地实践的经验。在随后的圆桌讨论环节,捏TA创始人胡修涵、AiPPT联合创始人王振同、flowith CMO拐子以及张江智荟总经理沈玲围绕“bigmodel原生创业”这一话题展开深入交流,碰撞出诸多精彩观点。
全新发布:GLM-4.1V-Thinking
7月2日,智谱正式开源并发布视觉语言大模型GLM-4.1V-Thinking,标志着GLM系列视觉模型实现了从感知到认知的关键跨越。
GLM-4.1V-Thinking是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为处理复杂认知任务而设计。它基于GLM-4V架构,引入“思维链推理机制(Chain-of-Thought Reasoning)”,并通过“课程采样强化学习策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系统提升了跨模态因果推理能力与稳定性。
其轻量版本GLM-4.1V-9B-Thinking控制在10B参数规模内,在保持部署效率的同时实现性能飞跃。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,有23项达到10B级模型最佳成绩,其中18项甚至超越参数量高达72B的Qwen-2.5-VL,充分展现了小参数模型的巨大潜力。

该模型在以下任务中表现尤为出色,展现出高度的通用性与稳健性:
- 图文理解(Image General):精准识别并综合分析图像与文本信息;
- 数学与科学推理(Math & Science):支持复杂题解、多步演绎与公式理解;
- 视频理解(Video):具备时序分析与事件逻辑建模能力;
- GUI 与网页智能体任务(UI2Code、Agent):理解界面结构,辅助自动化操作;
- 视觉锚定与实体定位(Grounding):实现语言与图像区域精准对齐,提升人机交互可控性。
目前,GLM-4.1V-9B-Thinking已同步在Hugging Face与魔搭社区开源。包括两个版本:GLM-4.1V-9B-Base基座模型,旨在帮助研究者探索视觉语言模型的能力边界;GLM-4.1V-9B-Thinking,则具备深度思考和推理能力,适合实际应用体验。
在面对科学研究、教育、自主Agent及多模态助手等复杂现实应用场景时,增强后的GLM-4.1V-Thinking能够真正解决开放式、信息丰富的行业问题,如长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent和代码生成。
GLM-4.1V-Thinking是通向通用多模态推理的重要一步。未来,我们将通过更优的奖励模型、更高效的RL算法持续优化该系列模型;同时探索视觉与语言模态之间的协同增强机制,力求在通用推理能力上实现重大突破。
MaaS应用空间:面向千行百业的AI生态市场
7月2日,智谱正式推出全新生态平台——「Agent应用空间」,并同步启动「Agents开拓者计划」,投入数亿元资金,全面扶持AI Agents创业团队。「Agent应用空间」是一个面向企业客户和开发者的AI Agent能力聚合平台,汇聚优秀开发者与企业资源。平台整合了丰富的Agent应用与模型插件(MCP),提供即开即用、灵活编排的组件服务与Agent应用,让企业无需自建大模型团队,即可轻松接入成熟、安全、可控的Agent能力。
「Agent应用空间」配备了一站式开发工具链、完整的模型调用接口与灵活的应用组合机制,成为推动“AI原生化”升级的重要引擎。正如智谱CEO张鹏所言:“AI的未来,不仅是模型性能的比拼,更是生产范式的重构。在这个时代,每一位开发者、设计者、创业者,都是智能生态的共同缔造者。”借助智谱的基座模型、多模态模型与MaaS平台,每个人都能用AI表达想法、生成内容、构建应用,甚至创办一家AI原生公司。这是一场关于智能的共创之旅,也是一次属于开发者的未来变革。
理论要掌握,实操不能落!以上关于《智谱MaaS上线10B级VLM,Agents应用新突破》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!
PythonMarkdown编辑器开发教程
- 上一篇
- PythonMarkdown编辑器开发教程
- 下一篇
- Python操作Kafka指南:消息系统实战教程
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ljg-skills
- ljg-skills 是李继刚开源的 AI 技能与提示词集合,面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板,适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。
- 1627次使用
-
- MELO音乐
- MELO音乐是一站式AI视频与音乐制作助手,对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐,MELO为你免费谱曲,轻松做同款!
- 1567次使用
-
- UniScribe
- UniScribe 是一款 AI 音视频转文字与内容整理工具,支持上传音频、视频文件或粘贴 YouTube 链接,自动生成转写文本、摘要、思维导图和关键问题,并支持多格式导出,适合会议记录、课程学习、访谈整理和内容创作复盘。
- 1506次使用
-
- 剧云
- 剧云是专业中文剧本创作平台,安全稳定运行十余年,集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能,数据安全防护,轻松高效创作剧本。
- 1702次使用
-
- 万象有声
- 万象有声,一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具,可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验,让有声书制作更简单!
- 1689次使用
-
- AI写作工具免费版安装教程(含豆包Clawdbot)
- 2026-05-30 501浏览
-
- WPS AI能自动生成PPT吗?输入主题一键制作演示文稿
- 2026-05-27 501浏览
-
- Canva手机闪退解决方法及适配指南
- 2026-05-25 501浏览
-
- Hermes Agent依赖的工具链有哪些 必备工具链介绍
- 2026-05-05 501浏览
-
- 千问AI官网地址链接入口_千问AI官方网站登陆入口
- 2026-05-05 501浏览

