DeepEyes— 小红书联合西安交大推出的多模态深度思考模型
2025-07-01 22:02:32
0浏览
收藏
大家好,我们又见面了啊~本文《DeepEyes— 小红书联合西安交大推出的多模态深度思考模型》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~
DeepInsight 是小红书团队与西安交通大学合作开发的多模态深度学习模型。该模型通过端到端强化学习实现类似于 OpenAI o3 的“以图推理”能力,且不需要依赖监督微调(SFT)。DeepInsight 能够在推理时动态调用图像处理工具,例如裁剪和缩放,从而加强其对细节的理解能力。此模型在视觉推理基准测试 V* Bench 上取得了 90.1% 的准确率,展示了其卓越的视觉搜索及多模态推理能力。DeepInsight 拥有优秀的图像定位功能,有助于减少幻觉现象的发生,提高了模型的可信度和适应性。
DeepInsight的核心功能
- 以图推理:能够直接将图像整合进推理流程中,不仅能观察图像,还能对其进行深入思考,在推理过程中动态地运用图像资料,强化细节识别力。
- 视觉检索:能够在高分辨率图像中迅速找到小目标或模糊区域,借助裁剪和缩放技术进行详尽分析,极大改善了检索精度。
- 幻觉抑制:凭借聚焦于图像细节的能力,减少了模型生成答案时可能出现的错误联想,增强了回答的精确性和稳定性。
- 跨模态推理:实现了视觉与文本推理之间的平滑过渡,增强了模型处理复杂任务的能力。
- 动态工具应用:模型能够自主判断何时应调用图像处理工具,比如裁剪、缩放等,无需外界干预即可完成更高效的推理过程。
DeepInsight的技术基础
- 端到端强化学习:DeepInsight 利用端到端强化学习(RL)来训练模型,无需进行冷启动的监督微调(SFT)。它依据奖励信号直接调整模型行为,使其学会如何在推理中有效地利用图像资源。奖励机制涵盖准确性奖励、格式奖励以及条件工具奖励,保证了模型既给出正确答案又能恰当地使用图像工具。
- 交错多模态思维链:DeepInsight 提出了交错多模态思维链(Interleaved Multimodal Chain-of-Thought, iMCoT),允许模型在推理期间交替处理视觉与文本信息。模型会在每次推理步骤中评估是否需要额外的视觉信息,并据此生成边界框坐标以裁剪图像的关键部分,然后将这些部分再次送回模型作为新的视觉证据。
- 面向工具使用的数据挑选:为了更好地鼓励模型使用工具,采用了面向工具使用的数据挑选策略。训练数据经过严格筛选,确保它们能够有效推动模型掌握工具操作技巧。数据集涵盖了高分辨率图像、图表数据以及推理数据,涉及多种任务类型,有助于提升模型的通用性。
- 工具调用行为演变:在训练进程中,模型的工具调用行为经历了三个阶段:初期试探、积极实践和高效利用。从最初的随机尝试逐步发展到精准且高效的工具调用,最终达到了接近人类水平的视觉推理效果。
- 多模态整合:DeepInsight 将视觉与文本信息紧密结合,构建了一个统一的推理架构。这种整合提升了模型在视觉任务上的表现,并增强了其在多模态任务中的整体效能。
DeepInsight的资源链接
- 项目主页:http://visual-agent.github.io/
- GitHub仓库:http://github.com/Visual-Agent/DeepInsight
- HuggingFace模型库:http://huggingface.co/ChenShawn/DeepInsight
- arXiv技术文档:http://arxiv.org/pdf/2505.14362
DeepInsight的实际用途
- 教育指导:解析考试卷中的图表和几何图形,为学生提供详细的解题指引,助力学业进步。
- 医疗服务:分析医学影像资料,协助医生作出诊断,提高诊疗质量和速度。
- 智能出行:实时解读道路状况图像,帮助自动驾驶车辆做出更明智的选择,保障行车安全。
- 公共安全:审查监控录像,发现可疑活动,加强社会治安管理。
- 制造业:在线监控生产线,执行质量检验和故障预警,优化生产流程并削减维修费用。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于科技周边的相关知识,也可关注golang学习网公众号。

- 上一篇
- java中数组的定义与使用思路 数组创建到遍历全流程

- 下一篇
- Python正则如何匹配文件路径?不同系统适配
查看更多
最新文章
-
- 科技周边 · 人工智能 | 4分钟前 | 配件 MagSafe iPhone17Pro Logo下移 重新设计
- iPhone17Pro后置Logo下移,MagSafe或升级
- 286浏览 收藏
-
- 科技周边 · 人工智能 | 6分钟前 |
- 即梦AI去水印方法:无痕设置教程分享
- 335浏览 收藏
-
- 科技周边 · 人工智能 | 8分钟前 |
- 1-4月进口车销量榜:雷克萨斯前三占三
- 139浏览 收藏
-
- 科技周边 · 人工智能 | 10分钟前 |
- DeepSeek联合Premiere剪辑全流程教学
- 161浏览 收藏
-
- 科技周边 · 人工智能 | 13分钟前 |
- 豆包AI编程教程:代码生成实战攻略
- 450浏览 收藏
-
- 科技周边 · 人工智能 | 16分钟前 |
- 通灵义码使用技巧与效率提升攻略
- 149浏览 收藏
查看更多
课程推荐
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
查看更多
AI推荐
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 19次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 160次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 197次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 177次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 167次使用
查看更多
相关文章
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览