当前位置:首页 > 文章列表 > 数据库 > MySQL > 数据库未来:湖仓一体成新趋势

数据库未来:湖仓一体成新趋势

来源:SegmentFault 2023-01-11 09:09:22 0浏览 收藏

大家好,今天本人给大家带来文章《数据库未来:湖仓一体成新趋势》,文中内容主要涉及到MySQL、postgresql、mongodb、Elasticsearch,如果你对数据库方面的知识点感兴趣,那就请各位朋友继续看下去吧~希望能真正帮到你们,谢谢!

摘要:本文回顾了“湖仓一体”概念提出的相关背景,详细地阐述了为什么需要“湖仓一体”以及“湖仓一体”数据架构的具体设想。最后对数据仓库、数据湖以及“湖仓一体”进行了具体的比较。

自 20 世纪 80 年代末以来,数据仓库在决策支持和商业智能应用领域中发挥了重要作用。

image.png

数据湖
虽然数据仓库非常适合结构化数据,但许多现代企业必须处理非结构化数据,半结构化数据。
image.png

数据湖是企业卸载所有数据的地方,因为其低成本存储系统具有文件API,可以保存通用和开放文件格式的数据,例如Apache Parquet和ORC。开放格式的使用还使数据湖中的数据可以直接被各种其他分析引擎(如机器学习系统)访问。
一开始,人们认为所需要的只是提取数据并将其放入数据湖中。一旦进入数据湖,最终用户就可以潜入并找到数据并进行分析。然而,组织很快发现,使用数据湖中的数据与仅仅将数据放置在湖中完全不同。换句话说,最终用户的需求与数据科学家的需求有很大不同。
最终用户遇到了各种各样的障碍:
  • 需要的数据在哪里?
  • 一个数据单位如何与另一个单位的数据相联系数据?
  • 数据是否是最新的?
  • 数据的准确性如何?
    由于缺乏一些关键的基础设施功能,数据湖的许多承诺尚未实现:不支持事务,不强制执行数据质量或治理,以及性能优化不佳。结果,企业中的大多数数据湖都变成了数据沼泽。
    当前数据架构的挑战
    当前常见的数据架构是使用多个系统 (一个数据湖、多个数据仓库和其他专用系统)来平衡数据仓库和数据湖的优劣势。
    image.png

    但是,这会导致三个常见问题:
    昂贵数据移动成本
    超过90%的模拟/物联网数据存储在数据湖中,因为它具有开放直接访问文件的灵活性和低成本,因为它使用廉价的存储。为了克服数据湖缺乏性能和质量问题,企业使用ETL(提取/转换/加载)将数据湖中的一小部分数据复制到下游数据仓库,用于最重要的决策支持和BI应用程序。这种双系统架构需要对数据湖和仓库之间的ETL数据进行持续工程设计。每个 ETL 步骤都有发生故障或引入降低数据质量的错误的风险 — 保持数据湖和数据仓库的一致性既困难又昂贵。同时,ETL可以整合数据。
    限制了对机器学习的支持
    尽管对机器学习和数据管理的融合进行了大量研究,但没有一个领先的机器学习系统,如TensorFlow,PyTorch和XGBoost,在仓库之上工作得很好。与提取少量数据的商业智能(BI)不同,机器学习系统使用复杂的非SQL代码处理大型数据集。
    缺乏开放性
    数据仓库将数据锁定为专有格式,这会增加将数据或工作负载迁移到其他系统的成本。鉴于数据仓库主要提供仅SQL访问,因此很难针对数据仓库运行任何其他分析引擎,例如机器学习系统。
    “湖仓一体”的出现
    在数据湖的基础上,出现了一种新的数据架构,称为”湖仓一体“。
    image.png

    采取Lake-First的方法论
    利用数据湖中已有的模拟和物联网数据,因为数据湖已经将大多数结构化、文本和其他非结构化数据存储在低成本存储(如 Amazon S3、Azure Blob Storage 或 Google Cloud)上。
    为数据湖带来可靠性和质量
  • 支持ACID
  • 支持Sechema,提供星型、雪花等模型分析能力,提供强大的治理和审计机制。
  • 支持Sechema强制检查,从而防止错误数据导致数据损坏。
  • 架构演进允许数据不断更改,使最终用户能够对可自动应用的 schema 进行更改,而无需繁琐的DDL。
  • 添加治理和安全控制
  • 通过 Scala、Java、Python 和 SQL API 支持 DML,以合并、更新和删除数据集,从而符合 GDPR 和 CCPA,并简化变更数据捕获等用例。
  • 历史记录提供有关对数据所做的每个更改的记录详细信息,从而提供更改的完整审核跟踪。
  • 数据快照使开发人员能够访问和恢复到早期版本的数据,以进行审核、回滚或重现实验。
  • 基于角色的访问控制为表的行/列级别提供细粒度的安全性和治理。
    优化性能
    通过利用文件统计信息和数据压缩来调整文件大小,实现各种优化技术,例如缓存、多维聚类、z-ordering、data skipping等。
    支持机器学习
  • 支持多种数据类型来存储、优化、分析和访问许多新应用程序的数据,包括图像、视频、音频、半结构化数据和文本。
  • 高效直接读取大量数据(非SQL),以便使用 R 和 Python 库运行机器学习试验。
  • 通过内置支持 DataFrame API 声明性 DataFrame API,可针对机器学习工作负载中的数据访问进行查询优化,因为 TensorFlow、PyTorch 和 XGBoost 等机器学习系统已采用 DataFrames 作为操作数据的主要抽象。
  • 机器学习实验的数据版本控制,提供数据快照,使数据科学和机器学习团队能够访问和恢复到早期版本的数据以进行审核和回滚或重现机器学习实验。
    提供开放性
  • 开放文件格式,如Apache Parquet和ORC。
  • Open API提供了一个开放的API,可以直接高效地访问数据,而无需专有引擎和供应商锁定。
  • 语言支持,不仅支持SQL访问,还支持各种其他工具和引擎,包括机器学习和Python/R库。
    数据仓库 vs 数据湖 vs 湖仓一体
    下图表是对数据仓库、数据湖、湖仓一体的比较:
    image.png

    思考与讨论
    你认为湖仓一体架构必须具有哪些功能,才能称为真正的”湖仓一体“,而不是炒作概念。
  • 事务(ACID)支持
  • 开放文件格式
  • 数据安全、数据治理
  • 其它

HashData湖仓一体应用实践
随着企业数字化转型的推进,越来越多的企业视湖仓一体为数字化变革的契机。当然,关注度越高,市场上嘈杂的声音也就越多。
在实际业务场景中,数据的移动不只是存在于数据湖和数据仓库之间,湖仓一体不仅需要把数仓和数据湖集成起来,还要让数据在服务之间按需流动。
HashData采用湖仓一体化架构,可以方便、快捷地将大量数据从数仓转移至数据湖内,同时这些移到湖里的数据,仍然可以被数仓查询使用。
目前,HashData已广泛应用于金融、电信、交通等行业,服务超过50家行业客户。在能源领域,HashData为某大型央企设计了基于计算存储分离的架构数据湖, 相比计算存储绑定的架构,HashData云端数据湖在保证查询需求的同时,减少了服务器资源成本。在PB级的数据量下,可以为企业节省上百万的服务器采购成本,充分实现了降本提效的目标。

以上就是《数据库未来:湖仓一体成新趋势》的详细内容,更多关于mysql的资料请关注golang学习网公众号!

版本声明
本文转载于:SegmentFault 如有侵犯,请联系study_golang@163.com删除
MySQL-检索数据MySQL-检索数据
上一篇
MySQL-检索数据
MySQL-DML(Data Manipulation Language)详解
下一篇
MySQL-DML(Data Manipulation Language)详解
评论列表
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • SEO标题魔匠AI:高质量学术写作平台,毕业论文生成与优化专家
    魔匠AI
    SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
    11次使用
  • PPTFake答辩PPT生成器:一键生成高效专业的答辩PPT
    PPTFake答辩PPT生成器
    PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
    26次使用
  • SEO标题Lovart AI:全球首个设计领域AI智能体,实现全链路设计自动化
    Lovart
    SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
    27次使用
  • 美图AI抠图:行业领先的智能图像处理技术,3秒出图,精准无误
    美图AI抠图
    美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
    35次使用
  • SEO标题PetGPT:智能桌面宠物程序,结合AI对话的个性化陪伴工具
    PetGPT
    SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码