OpenMLDB 研发负责人第四范式系统架构师卢冕:开源机器学习数据库OpenMLDB:线上线下一致的生产级特征平台
在科技周边实战开发的过程中,我们经常会遇到一些这样那样的问题,然后要卡好半天,等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《OpenMLDB 研发负责人第四范式系统架构师卢冕:开源机器学习数据库OpenMLDB:线上线下一致的生产级特征平台》,聊聊,希望可以帮助到正在努力赚钱的你。
嘉宾:卢冕
整理:墨色
2022年8月6日-7日,AISummit 全球人工智能技术大会如期举办。在会上,OpenMLDB 研发负责人第四范式系统架构师卢冕带来了主题演讲《开源机器学习数据库OpenMLDB:线上线下一致的生产级特征平台》,从人工智能工程化落地的数据和特征挑战、OpenMLDB线上线下一致的生产级特征计算平台、OpenMLDB v0.5:性能、成本、易用性增强,三个方面进行了分享。
现将演讲内容整理如下,希望对各位有所启发。
人工智能工程化落地的数据和特征挑战
如今,据统计,在人工智能落地过程中有95%的时间都是花费在数据上。虽然市面上有诸如MySQL之类各种各样的数据工具,但它们远远没有解决人工智能落地的难题。因此,先来了解一下数据问题。
如果大家有参与过一些机器学习的应用开发,应该对MLOps印象深刻,如下图所示:
其实,当下对MLOps并没有严格的学术定义,整体上可将其分成离线开发和线上服务两个流程。每个流程中信息的载体,从数据、特征,到模型,会经历三种不同的载体,从离线开发流程一直走到线上服务流程。
接下来我们聚焦中间特征流程这一部分,了解到底是如何解决所面临的挑战的。
应用背景:决策类场景基于时序数据的特征工程
人工智能发展到现在主要有两种应用分类,一类是感知类,比如大家熟悉的人脸识别等都是感知类的AI应用,基本上会基于DNN算法进行。另一类是决策类的AI场景,比如淘宝购物的个性化推荐。此外还有一些像风控场景、反欺诈场景等都是AI在决策类中使用非常广泛的应用场景。
因此,我们现在讲的应用背景主要是针对这种决策类场景,最大的一个特点在于它的数据是一个二维表格的结构化数据,并且还是一个时序数据。如下图所示,用户交易表上有一个“trans_time”,代表了每一条记录所发生的时间点,连起来就是一个时序数据。基于时序数据的特征工程,最常见的一种处理方式就是基于时间窗口的聚合函数。例如针对用户一天内的交易总额等,这是决策类场景中特征工程常见的操作。
业务场景:满足生产级上线需求的实时推荐系统
当下,我们为什么要使用OpenMLDB?一个非常大的背景是要用真正的硬实时计算去满足AI需求。
什么是硬实时计算?它有两层含义,一层是指要用最新鲜的实时数据来达到最大的决策业务效果。比方要用过去10秒或1分钟内用户的点击行为来做决策业务,而不是过去一年或前年的数据。
另外很重要的一点是,做实时计算,用户一旦发出行为请求就需要在短时间内甚至是毫秒级去进行特征计算。
当前市面上有很多做批量计算/流式计算的产品,但还没有达到毫秒级的硬实时计算需求。
例如,如下图所示做一个满足生产级上线需求的实时推荐系统,用户小李做一个关键词为“洗衣机”的搜索,他需要在系统中把原始请求数据以及用户、商品、交易等信息数据合起来进行实时特征计算,然后产生一些更有意义的特征,即所谓的特征工程,产生特征的过程。比如系统会产生“过去三个月内某一年龄段顾客购买的前三畅销洗衣机”,这一类特征不需要强时效性,是基于较长历史数据进行计算的。但是,系统可能也会需要一些强时效性的数据,比如“过去一小时内/半小时内的浏览记录”等,系统得到新计算出来的特征后会给到模型进行推理。而这样的系统特征平台的需求主要有两个,一个是正确性,即线上线下特征计算一致性;另一个是高效性,即特征实时计算,延迟
特征计算开发到上线全生命周期
在没有OpenMLDB方法论之前,大家主要使用如下图所示的流程进行特征计算开发。
首先要做一个场景,数据科学家会使用Python/SparkSQL工具做离线特征抽取。数据科学家的KPI就是去做符合精度的业务需求模型,当模型质量达标后任务也就完成了。而特征脚本上线以后所面临的工程化挑战,如低延迟、高并发、高可用等并不是科学家的管辖范畴。
为了让数据科学家写的Python脚本上线,需要工程化团队介入,他们要做的就是把数据科学家所做的离线脚本进行重构、优化,使用C++/Database做实时特征抽取服务。这满足了低延迟、高并发、高可用的一系列工程化的需求,从而使特征脚本真正上线去做线上服务。
这一流程非常昂贵,需要两组技能团队的介入,而且他们所使用的工具不一样。两组流程走下来,还需要做计算逻辑的一致性校验,即数据科学家所开发的特征脚本的计算逻辑要与最后实时特征抽取上线的逻辑完全一致。这一需求看似明确、简单,但在一致性校验过程当中会引入大量的沟通成本、测试成本以及迭代开发成本。根据以往经验,项目越大则一致性校验需要的时间越长,成本非常大。
一般来说,在一致性校验过程中线上线下不一致的原因主要在于开发工具不一致,比如科学家用的是Python,工程化团队用的是数据库,工具能力有差异就可能会出现功能的妥协、不一致;还有就是对数据的定义、算法的定义,以及认知有差距等。
总而言之,基于传统两套流程的开发成本非常高昂,需要两组不同技能站的开发人员、两套系统的开发和运营,中间还要添加堆砌的校验、核对等。
而OpenMLDB提供了一个低成本开源解决方案。
OpenMLDB:线上线下一致的生产级特征计算平台
去年6月,OpenMLDB正式开源,是开源社区中的年轻项目,但已经在100多个场景中落地应用,覆盖超过300多个节点。
OpenMLDB是一个开源机器学习数据库,最主要功能是提供一个线上线下一致的特征平台。那么OpenMLDB是如何满足高性能和正确性的需求的?
如上图所示,首先OpenMLDB使用的唯一编程语言就是SQL,不再有两套工具链,不管是数据科学家还是开发人员,都使用SQL表述特征。
其次,在OpenMLDB内部分出两套引擎,一套是“批处理SQL引擎”,基于Spark++进行源代码级别的优化,提供了更高性能的计算方式,并做了语法扩充;另外一套是“实时SQL引擎”,这一套是我们团队自研的资源时序数据库,默认是一个基于内存的存储引擎的时序数据库。基于“实时SQL引擎”,我们才可以达到线上高效的毫秒级实时计算,同时也保证高可用、低延迟、高并发。
在这两套引擎之间还有一个重要的“一致性执行计划生成器”,目的是保证线上线下执行计划逻辑的一致性。有了它可以天然保证线上线下一致性而不再需要人工进行校对。
总而言之,基于此架构,我们的最终目的是达成“开发即上线”的优化目标,主要包括三个步骤:线下SQL特征脚本开发;一键部署上线;接入实时请求数据流。
可以看出,相较于之前两套流程、两套工具链、两套开发人员的投入,这一套引擎最大的优势是节省了大量工程化成本,即只要数据科学家用SQL开发特征脚本,不再需要工程化团队做第二轮优化,便可直接上线,也不再需要中间的线上线下一致性校验的人工操作,省下了大量时间和成本。
下图展示了OpenMLDB从离线开发到线上服务的完整流程:
总体来看,OpenMLDB解决了一个核心问题——机器学习线上线下一致性;提供了一个核心特性——毫秒级实时特征计算。这两点是OpenMLDB所提供的最核心价值。
因为OpenMLDB有线上线下两套引擎,所以应用方式也不尽相同。下图展示了我们的推荐方式,可供参考:
接下来介绍一下OpenMLDB中的一些核心组件或特性:
特性一,线上线下一致性执行引擎,基于统一的底层计算函数,逻辑计划到物理计划的线上线下执行模式自适应调整,从而使得线上线下一致性得到天然保证。
特性二,高性能在线特征计算引擎,包括高性能双层跳表内存索引数据结构;实时计算+预聚合技术的混合优化策略;提供内存/磁盘两种存储引擎,满足不同性能和成本需求。
特性三,面向特征计算的优化的离线计算引擎,包括多窗口并行计算优化;数据倾斜计算优化;SQL语法扩展;针对特征计算优化的Spark发行版等。这些都使得在性能方面相较社区版大幅提升。
特性四,针对特征工程的SQL扩展。之前提到我们使用SQL做特征定义,但其实SQL并不是为特征计算设计的,所以在研究大量案例、累积使用经验以后,发现有必要对SQL语法做一些扩展,让它更好处理特征计算的场景。这里有两个比较重要的扩展,一个是LAST JOIN,另一个是比较常用的WINDOW UNION,具体如下图所示:
特性五,企业级特性支持。OpenMLDB作为一个分布式数据库,具有高可用、可无缝扩缩容、可平滑升级等特点,已经在很多企业案例中落地应用。
特性六,以SQL为核心的开发和管理,OpenMLDB还是一个数据库的管理,它与传统数据库较为相似,比如提供了CLI,那OpenMLDB就可以在整个CLI中实现整套流程,从离线特征计算、SQL方案上线到线上请求等,可以提供一个基于SQL和CLI的全流程开发体验。
另外,OpenMLDB目前已经开源,关于其上下游生态的扩展,如下图所示:
OpenMLDB v0.5.0:性能、成本、易用性增强
接下来,介绍一下OpenMLDB v0.5的一个新版本,我们在三方面做了一些增强。
首先看一下OpenMLDB的发展历程。2021年6月,OpenMLDB开源,其实在这之前已经拥有了很多客户,并且从2017年就已经开始做第一行代码开发,技术的积累已有四五年的时间。
在开源后一周年里,我们迭代了大概五个版本。相较于以往版本,v0.5.0具有以下几个显著特点:
性能升级,聚合技术能够显著提升长窗口性能。预聚合优化使得在长窗口查询下,无论延迟还是吞吐,性能都提升了两个数量级。
成本降低,从v0.5.0版本开始,在线引擎提供基于内存和外存的两种引擎选择。基于内存,低延迟、高并发;较高使用成本提供毫秒级延迟响应。基于外存,对性能较不敏感;低成本使用落地基于SSD的典型配置下成本可下降75%。两种引擎上层业务代码无感知,零成本切换。
易用性增强。我们在v0.5.0版本中引入了用户自定义函数(UDF),这意味着如果SQL不能满足你的特征抽取逻辑表达,支持用户自定义函数,比如C/C++ UDF、UDF动态注册等,方便用户扩展计算逻辑,提升应用覆盖范围。
最后,感谢各位OpenMLDB开发者,从开源开始已经有接近100位贡献者在我们社区做过代码贡献,同时,我们也欢迎更多的开发者可以加入社区,贡献自己的力量,一起做更有意义的事情。
大会演讲回放及PPT已上线,进入官网查看精彩内容。
好了,本文到此结束,带大家了解了《OpenMLDB 研发负责人第四范式系统架构师卢冕:开源机器学习数据库OpenMLDB:线上线下一致的生产级特征平台》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多科技周边知识!

- 上一篇
- 女王登基70周年,世上首个超逼真人形机器艺术家献上肖像画作,被锐评“缺少信念”

- 下一篇
- 如何使用Azure Bot Services创建聊天机器人的分步说明
-
- 忧伤的玉米
- 写的不错,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢老哥分享技术贴!
- 2023-05-17 07:59:53
-
- 懦弱的茉莉
- 太详细了,码起来,感谢作者大大的这篇文章,我会继续支持!
- 2023-05-15 19:29:53
-
- 完美的时光
- 这篇技术文章太及时了,太全面了,真优秀,已加入收藏夹了,关注大佬了!希望大佬能多写科技周边相关的文章。
- 2023-05-09 12:54:42
-
- 爱笑的向日葵
- 这篇技术贴出现的刚刚好,大佬加油!
- 2023-05-03 14:03:26
-
- 科技周边 · 人工智能 | 23秒前 |
- 2025必备!DeepSeek满血功能激活+超神加速玩法全流程详解
- 392浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 5个小技巧,轻松玩转通灵义码!
- 117浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 通灵义码使用教学,掌握这些技巧让你轻松上手!
- 138浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- DeepSeek+有道双剑合璧,多语言文档翻译润色soeasy!
- 320浏览 收藏
-
- 科技周边 · 人工智能 | 8小时前 |
- 即梦AI如何开启团队协作?手把手教你开通多人编辑功能
- 439浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- Midjourney+DeepSeek,双剑合璧打造最强AI创作工具!
- 184浏览 收藏
-
- 科技周边 · 人工智能 | 9小时前 |
- 即梦AI这样用才对!手把手教你轻松玩转AI绘图工具
- 250浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 43次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 63次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 73次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 68次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 71次使用
-
- GPT-4王者加冕!读图做题性能炸天,凭自己就能考上斯坦福
- 2023-04-25 501浏览
-
- 单块V100训练模型提速72倍!尤洋团队新成果获AAAI 2023杰出论文奖
- 2023-04-24 501浏览
-
- ChatGPT 真的会接管世界吗?
- 2023-04-13 501浏览
-
- VR的终极形态是「假眼」?Neuralink前联合创始人掏出新产品:科学之眼!
- 2023-04-30 501浏览
-
- 实现实时制造可视性优势有哪些?
- 2023-04-15 501浏览