RAG到DeepResearch技术解析
科技周边小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《RAG到DeepResearch技术实践解析》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补自己的不足,助力实战开发!
又到年末复盘季啦!本文将带大家回顾我所在团队今年在大模型领域的技术演进路径与落地实践。
大模型的爆发,催生了众多实用型AI应用,其中最主流、最贴近业务场景的当属 RAG(Retrieval-Augmented Generation,检索增强生成)。然而,在短短不到三年时间里,RAG 在技术圈经历了数次“沉浮”:
——刚被寄予厚望,转眼就被预言将被 GraphRAG 取代;
——还没站稳脚跟,又被称“大模型原生能力已覆盖 RAG”;
——长上下文风头正盛时,RAG 被断言“即将退场”;
——紧接着上下文工程又成新宠……
最近 DeepSeek-OCR 的发布,更引发了业内对当前纯文本驱动的 RAG 架构是否仍具可持续性的深度反思。
但就我们一线落地经验来看,RAG 依然是当前企业级大模型应用中不可替代的底层能力。与此同时,我们也越来越清晰地意识到:仅靠传统 RAG 已远远无法应对日益复杂的用户需求。本文将系统介绍我们如何从基础 RAG 出发,逐步迈向更智能、更自主的 DeepResearch 技术体系。
话不多说,先看整体技术演进图谱:
descript1. RAG知识库检索
大模型底座的研发门槛极高,在绝大多数 AI 项目中,团队更务实的选择是:如何高效、稳定地用好现有大模型。
这自然将优化重心聚焦于两个关键环节:
输入优化:即 Prompt 工程 / 上下文工程;
输出治理:确保大模型输出更精准、更可控、更符合业务预期。
暂且抛开 Agent 框架中的规划、工具调用、记忆与反思等高级能力,单看单轮问答这一最基础交互形态——无论叫 Prompt Engineering 还是 Context Engineering,本质都是同一个问题:我们该给大模型喂什么内容,它才能真正理解意图,并给出高质量答案?
通用知识,大模型已基本掌握;但要让它懂“你的业务逻辑”,答出“你关心的问题”,就必须构建专属的知识资产,并通过 RAG 实现精准注入。换言之,RAG 就是最直接、最有效的输入增强手段。
关于 RAG 的基础原理与实现细节,我在过往多篇文档中已有详述,此处不再赘述。
(RAG,真是让我们熬过不少通宵……模型不是“降智”就是“幻觉”,RAG 往往成了背锅侠)
结合我们在打造企业级 RAG 知识库问答平台过程中的实战体会:召回、检索、大模型生成等核心模块的技术方案已相对成熟。但在真实落地阶段,算法团队面临的挑战早已远超模型本身——数据质量、治理标准、工程链路稳定性,甚至原始数据的完整性,都可能成为瓶颈。
尤其在垂直领域,我们仍需基于行业特有数据开展模型微调与定制化优化,并针对性攻克实际问题。例如:
- 针对指代不清、多轮对话中问题漂移现象:训练专用 Query 改写模型;
- 针对版面解析不准、图文信息丢失、处理速度慢等问题:自研高鲁棒性版面分析框架;
- 针对全局性、跨文档类复杂问题回答效果弱:深度改造 GraphRAG,推出轻量高效的企业定制版;
- 针对端到端推理延迟高:自主研发推理加速框架,融合算法优化与工程提效策略,显著压缩响应耗时。
关键能力模块如下图所示:
descript再分享几点 RAG 落地过程中的关键认知:
管理层的战略定力:企业真正迈向 AI 原生,首要前提是推动数据入口统一、治理流程标准化,而这离不开高层的坚定支持与资源投入。
跨职能协同机制:从业务需求梳理、非结构化数据清洗、语义结构重构、文档规范制定,到版面解析、向量化入库等环节,前期必须由算法与业务团队高频对齐、深度共建。
持续迭代思维:切勿幻想“一次治理、永久可用”。RAG 平台的效果提升,本质上是一场贯穿全生命周期的数据+算法共进化过程——每一次上线、每一条用户反馈,都是打磨知识体系与模型能力的宝贵契机。
RAG 的引入,不只是让企业“用上 AI”,更是触发其启动数据资产化治理、知识图谱化重构的关键起点。而 RAG 自身,也在真实业务压力下不断进化:变得更稳健、更聪明,也更适配多样化业务诉求。
Web知识扩展
RAG 是知识库问答的标配能力,但在用户真实提问中,我们发现大量问题既不在预置模型能力范围内,也不在内部知识库中,而是强依赖实时网络信息,比如:“最近武汉有哪些热门演唱会?”——这类用户,我们当然不能放弃。
因此,我们构建了一套实时 Web 检索能力,将互联网作为动态知识源,使模型可在必要时按需获取最新资讯。从架构角度看,只需在原有 RAG 流程中新增一个外部检索通道,无需重构主链路。
既然“搜”已打通,那“推”岂能缺席?我们顺势开发了每日热点文章 & 最新顶会论文自动抓取与摘要生成模块,大幅减少人工信息筛选成本。没想到该功能上线后迅速在多个技术团队走红——在信息爆炸时代,AI 主动识别并推送高价值内容,才是真正体现其生产力价值的时刻。
下图是我们为算法同事每日推送的 AI 行业前沿简报界面。该机制并不局限于技术领域,任务类型可根据不同业务线灵活配置。
descript同时,这套 Web 检索结果可无缝接入 RAG 流程,直接支持与网页内容的深度问答交互。
深度检索
随着工具能力持续丰富、平台使用规模稳步增长,我们愈发明确一个事实:仅具备基础“检索”能力的 RAG 系统,已难以支撑更高阶的业务诉求。
当信息源愈加多元、问题愈加复杂,“单次检索 + 浅层推理”的范式极易止步于表层答案。为此,我们开始向纵深突破——正式开启深度检索(Deep Search)能力建设。
这并非我们独有的挑战,而是整个 RAG 应用生态正在共同演进的方向,如通义 DeepResearch Agent 即为代表性探索之一。
Deep Research Agent技术 --通义“狐獴家族”(一)
综合论文方法论、真实场景暴露的短板,以及内部知识库与外部 Web 检索双轨并行的实际需求,我们完成了一套私有化部署的深度检索系统:
- 支持内/外知识源协同调用;
- 内置自研问题改写与深化模块,强化多跳推理能力;
- 用户可按需开关联网搜索、指定知识源范围;
- 面对复杂问题,系统可自主发起多轮查询、交叉验证与信息整合,输出更具深度与完整性的结论。
深度报告
深度检索通常面向具体问题,输出以精炼回答为主。但随着技术成熟与用户期待升级,需求已悄然跃迁至更高层级:“请 AI 独立开展系统性研究,并交付一份结构清晰、逻辑严密、图文并茂的深度研究报告。”
Deep Research Agent技术 --通义“狐獴家族”(二)
前两篇文章中,我已系统阐述了从 RAG → 深度检索 → 深度研究报告的技术跃迁路径,本文不再重复技术细节,基础流程可参考图一框架中的对应模块:
descript本文重点聚焦于:通用 DeepResearch 方案与企业级落地之间的关键差异,以及我们为何选择自研整套 DeepResearch Agent。
目前,我们自研的 DeepResearch Agent 已在 DeepResearch_Bench 官方评测榜单中,采用标准测评方式验证,性能稳居前三,超越第三名。
descript
descript核心突破体现在以下五方面:
(1)多智能体协同架构
依据图一模块划分,完整的 DeepResearch 流程需多个专业化 Agent 模块与工具链协同运作,从而保障最终输出的专业性、系统性与可控性。
(2)自研 Query 扩展模型,拓展研究广度与维度
针对真实业务中普遍存在的指代模糊、问题漂移、语义窄化等 Query 理解难题,我们基于高质量多维标注数据集,对 7B 规模模型开展 SFT + RLHF 训练。实测效果已与开源 32B 模型持平,实现小模型、高性价比的工程落地目标。
(3)自研 Deep Search 搜索引擎
深度融合自研 Web 检索工具与多跳推理框架,大幅提升复杂主题下的信息挖掘与跨源整合能力,使模型更擅长链式推理与证据闭环构建。
(4)全链路性能优化体系
为保障在企业环境中真正可用、可扩、可运维,我们开展了系统级性能攻坚:
- 模型侧:优先选用中小规模模型,在关键指标不妥协前提下,集成量化压缩、Prompt 精简、投机解码等多项推理加速技术;
- 工程侧:采用分布式服务部署、请求缓冲池、并发流量调度等策略,在有限算力下显著提升吞吐量与并发承载力。
(5)多模态能力原生集成
当前主流开源 DeepResearch 方案普遍缺乏多模态支持,而我们在 RAG 项目中已构建完整图文理解与检索能力,得以平滑迁移至 DeepResearch 全流程。
此外,在真实企业场景中,我们观察到各业务线对 DeepResearch 的诉求差异极大,例如:
- 某些业务已有固定 TOC 结构,需绑定专属报告模板;
- 某些行业需定制章节生成 Prompt,嵌入专业术语与逻辑约束;
- 某些场景必须联动私域知识库与 Web 检索双源;
- 报告生成后,还需支持在线润色、结构调整、风格适配;
- 特定合规敏感领域,要求完整引用溯源链路与证据锚点……
这些需求,远超现有开源框架的默认能力边界。因此,我们在自研 DeepResearch Agent 架构基础上,投入大量工程化建设,将其打磨为真正可交付、可配置、可运维的企业级产品方案。
descript在工程能力上,我们还通过 AI Coding 模块实现了“一键生成 HTML 可视化报告”的能力,让研究成果可快速发布与共享。
descript同时上线在线画布功能,支持业务人员与 AI 直接交互、实时调整报告结构与内容。
descript5. 多模态
多模态方向,我们的技术探索聚焦三大核心能力:多模态理解、多模态生成、多模态推理加速。
本文主线围绕 RAG → DeepResearch Agent 全流程展开,当前企业在该链条中最常用、最刚需的能力,仍是多模态理解。
其中,版面分析是 RAG 流程中至关重要却常被低估的一环。文档解析的质量,直接决定后续文本切片合理性、检索准确性与最终回复质量。我们在此环节历经多轮技术迭代:
- 传统解析方案:依赖通用文档解析库,速度快但丢失图像信息,复杂版面顺序错乱,适用于高度结构化文档;
- CV 模型串联方案:拆解为多个轻量子模型协同工作,工程可控性强,但链路长、误差易累积、部署复杂;
- 端到端多模态模型方案:统一输入格式,直接输出结构化布局,但存在输出不稳定、修复困难、推理慢等现实瓶颈。
实践表明,没有“银弹”方案。不同业务的数据分布特征、延迟容忍度、算力预算均不同,需按场景择优选型。
完成版面分析后,下一步是对文档中图像内容进行深度理解与处理。
我们在 RAG 中构建的图文检索与生成链路包括:
- 图像语义理解:提取多模态 embedding 与高质量文本描述;
- 图像向量化存储与索引构建:支撑毫秒级图文召回;
- 检索后图文融合生成:将匹配文本片段与图像内容有机整合,输出图文混排的多模态回答。
最终交付的是兼具信息密度与视觉表达力的多模态回复。
6. Agent
如果说 RAG 解决的是“让模型知道该看什么”,赋予其记忆;
DeepSearch 解决的是“让模型知道该怎么看”,赋予其思考;
DeepResearch 解决的是“让模型能把看过的内容系统性组织起来”,赋予其研究能力;
那么 Agent 要解决的,就是“让模型自主判断下一步该做什么”,赋予其执行力。
当我们沿着 RAG → 联网检索 → 深度搜索 → 深度研究这条路径持续演进,技术走向已愈发清晰:从“被动回答问题”,正加速迈向“主动完成任务”。
即便不刻意对标 Agent 框架,产品为满足真实业务需求,也必然自发演化出 Agent 特性——它需要理解用户意图、感知环境变化、调用合适工具、执行推理研究,并交付端到端解决方案。
当然,在企业实践中,算法只是拼图一角。哪怕仅从纯技术视角出发,AI 从来都不是单一模型或框架,而是一整套涵盖数据、算法、工程、运维的复合型技术体系。
在 RAG → 深度检索 → DeepResearch → Agent 的建设过程中,除算法研发外,我们同步构建了完整的工程底座:包括弹性算力平台、标准化中间件、工具链生态、全链路可观测性、并发调度引擎、缓存机制及运营数据大盘等。
总结
回看去年的技术文章,更多聚焦于理论探讨与方法论沉淀;而今年,团队已在深度报告 Agent 方向实现规模化场景落地,完整走通了从 RAG 到 Agent 的技术闭环:
- RAG:构建企业专属知识中枢,实现稳定、可信的智能检索与问答,是智能化基石;
- 知识扩展与深度检索:融合实时 Web 信息,支持多轮、多跳、跨源查询,显著提升答案深度;
- 深度研究与报告生成:依托多智能体协作、自研模型与多模态能力,实现自动化、结构化、可视化研究报告输出;
- Agent 化演进:模型逐步具备任务分解、工具调度、闭环执行能力,完成从“回答问题”到“解决问题”的质变。
总体而言,企业大模型落地绝非仅靠几个先进模型即可达成,而是一项横跨业务理解、知识管理、数据治理、算法研发、工程实现与性能优化的系统工程。RAG 是不可或缺的起点,但唯有叠加深度检索、深度研究与 Agent 化能力,才能真正释放 AI 的决策智能与生产力价值。
朗新AI研究院已在多个关键技术方向形成深厚积累,成功孵化出一系列面向集团内部业务场景的智能体应用。
其中,深度研究报告系统、“产品博士”与“售前专家”等核心智能体,均深度集成了本文所述的 DeepResearch 技术能力。

今天带大家了解了的相关知识,希望对你有所帮助;关于科技周边的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~
网易云音乐官网在线听歌链接
- 上一篇
- 网易云音乐官网在线听歌链接
- 下一篇
- Win11添加或删除美式键盘布局方法
-
- 科技周边 · 人工智能 | 21秒前 |
- ChatGPT写PRD,提升产品效率
- 498浏览 收藏
-
- 科技周边 · 人工智能 | 24分钟前 |
- NBA球员跟腱断裂影响及康复解析
- 286浏览 收藏
-
- 科技周边 · 人工智能 | 27分钟前 |
- AMD显卡驱动怎么选?2024玩家必备指南
- 254浏览 收藏
-
- 科技周边 · 人工智能 | 30分钟前 |
- GLM-ASR语音模型开源发布详解
- 426浏览 收藏
-
- 科技周边 · 人工智能 | 33分钟前 |
- CanvaAI抠图优化技巧分享
- 307浏览 收藏
-
- 科技周边 · 人工智能 | 33分钟前 |
- 豆包AI新闻摘要怎么用|高效提炼技巧分享
- 432浏览 收藏
-
- 科技周边 · 人工智能 | 34分钟前 | 巧文书AI
- 巧文书AI官网入口及使用教程
- 430浏览 收藏
-
- 科技周边 · 人工智能 | 42分钟前 |
- AI驱动n8n工作流:零代码智能搭建
- 214浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 多位数四舍五入技巧与练习方法
- 178浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- AI赋能播客编辑,自动化技术解析
- 368浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 |
- 即梦登录失败原因及解决方法
- 250浏览 收藏
-
- 科技周边 · 人工智能 | 1小时前 | OpenAI
- OpenAI支持哪些开发平台?
- 307浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3435次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3638次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3671次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4808次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 4036次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览

