TiDB 在猿辅导数据快速增长及复杂查询场景下的应用实践
亲爱的编程学习爱好者,如果你点开了这篇文章,说明你对《TiDB 在猿辅导数据快速增长及复杂查询场景下的应用实践》很感兴趣。本篇文章就来给大家详细解析一下,主要介绍一下MySQL、github,希望所有认真读完的童鞋们,都有实质性的提高。
猿辅导是国内拥有最多中小学生用户的在线教育机构,旗下有猿题库、小猿搜题、猿辅导三款在线教育 APP,为用户提供在线题库、拍照搜题、名师在线辅导相关的服务。其中,猿辅导APP已经有超过116万付费用户,提供小学英语、奥数,和初中高中全学科的直播辅导课程,全国任何地区的中小学生,都可以享受在家上北京名师辅导课的服务。
海量的题库、音视频答题资料、用户数据以及日志,对猿辅导后台数据存储和处理能力都提出了严峻的要求。
猿辅导的业务决定了其后台系统具有以下特点:
1.数据体量大,增速快,存储系统需要能够灵活的水平扩展;
2.有复杂查询,BI 方面的需求,可以根据索引,例如城市、渠道等,进行实时统计;
3.数据存储要具备高可用、高可运维性,实现自动故障转移。
在最初方案选型时,猿辅导初期考虑用单机 MySQL。但根据业务发展速度预估,数据存储容量和并发压力很快就会达到单机数据库的处理瓶颈。如果在 MySQL 上加入分库中间件方案,则一定要指定 sharding key,这样是无法支持跨 shard 的分布式事务。同时 proxy 的方案对业务层的侵入性较强,开发人员必须了解数据库的分区规则,无法做到透明。
除此之外,分库分表很难实现跨 shard 的聚合查询,例如全表的关联查询、子查询、分组聚合等业务场景,查询的复杂度需要转嫁给开发者。即使某些中间件能实现简单的 join 支持,但是仍然没有办法保证查询的正确性。另外广播是一个没有办法 Scale 的方案,当集群规模变大,广播的性能开销是很大的。同时,传统 RDBMS 上 DDL 锁表的问题,对于数据量较大的业务来说,锁定的时间会很长,如果使用 gh-ost 这样第三方工具来实现非阻塞 DDL,额外的空间开销会比较大,而且仍然需要人工的介入确保数据的一致性,最后切换的过程系统可能会有抖动。可以说,运维的复杂性是随着机器数量指数级增长,而扩容复杂度则是直接转嫁给了 DBA。
最终,猿辅导的后台开发同学决定寻求一个彻底的分布式存储解决方案。通过对社区方案的调研,猿辅导发现分布式关系型数据库 TiDB 项目。
TiDB 是一款定位于在线事务处理/在线分析处理(HTAP)的融合型数据库产品,具备在线弹性水平扩展、分布式强一致性事务、故障自恢复的高可用、跨数据中心多活等核心特性;对业务没有任何侵入性,能优雅的替换传统的数据库中间件、数据库分库分表等 Sharding 方案,并在此过程中保证了事务的 ACID 特性。同时它也让开发运维人员不用关注数据库 Scale 的细节问题,专注于业务开发,极大的提升研发的生产力。用户可以把 TiDB 当作一个容量无限扩展的单机数据库,复杂的分布式事务和数据复制由底层存储引擎来支持,开发者只需要集中精力在业务逻辑的开发上面。下图为 TiDB 与传统的 MySQL 中间件方案的一些对比:

TiDB 集群主要分为三个组件:TiDB Server、TiKV Server、PD Server。下图为 TiDB 整体架构图:

TiDB Server 负责处理 SQL 请求,随着业务的增长,可以简单的添加 TiDB Server 节点,提高整体的处理能力,提供更高的吞吐。TiKV 负责存储数据,随着数据量的增长,可以部署更多的 TiKV Server 节点解决数据 Scale 的问题。PD 会在 TiKV 节点之间以 Region 为单位做调度,将部分数据迁移到新加的节点上。所以企业在业务的早期,可以只部署少量的服务实例,随着业务量的增长,按照需求添加 TiKV 或者 TiDB 实例。
在实际上线的部署设置中,猿辅导选择了 2 TiDB + 3 TiKV + 3 PD 的架构,随着业务数据的增加可以弹性扩容,数据条数每天 500w,日常库中数亿条记录,峰值 QPS 1000。
猿辅导的用户端会做一些直播过程的音视频质量的数据收集,比如丢包,延迟,质量打分。然后客户端把这些数据发回服务器,服务器把这些数据存到 TiDB 上。
在猿辅导研发副总裁郭常圳看来:“TiDB 是一个很有野心的项目,从无到有的解决了 MySQL 过去遇到的扩展性问题,在很多场合下也有 OLAP 的能力,省去了很多数据仓库搭建成本和学习成本。这在业务层是非常受欢迎的。”对于接下来的计划,猿辅导预计在其他分库分表业务中,通过 syncer 同步,进行合并,然后进行统计分析。
实际上,类似猿辅导这种场景的并不是第一家,在互联网快速发展下,大量的企业面对着业务激增的情况。TiDB 灵活的水平扩展能力,能够满足企业业务快速发展的需要。
目前,TiDB 已有准生产测试用户 200 余家,其中摩拜单车、同程旅游、360 金融、心动网络、盖娅互娱等数十家不同行业的领先企业已经应用在实际生产环境,涉及互联网、游戏、金融、政府、电信、制造业等多个领域。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于数据库的相关知识,也可关注golang学习网公众号。

- 上一篇
- 后端文章精选 - 收藏集 - 掘金

- 下一篇
- 用kettle 进行数据库的迁移--DB2 迁移到 mysql
-
- 迷人的黑猫
- 这篇技术文章太及时了,太全面了,感谢大佬分享,已加入收藏夹了,关注博主了!希望博主能多写数据库相关的文章。
- 2023-03-07 05:03:28
-
- 甜蜜的手链
- 很棒,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢作者大大分享文章!
- 2023-02-19 04:20:59
-
- 完美的黑猫
- 细节满满,收藏了,感谢楼主的这篇博文,我会继续支持!
- 2023-01-19 21:08:29
-
- 大气的黑裤
- 这篇文章真是及时雨啊,好细啊,赞 👍👍,码住,关注大佬了!希望大佬能多写数据库相关的文章。
- 2023-01-18 13:17:10
-
- 奋斗的哈密瓜,数据线
- 这篇文章内容真是及时雨啊,好细啊,赞 👍👍,收藏了,关注作者大大了!希望作者大大能多写数据库相关的文章。
- 2023-01-18 06:45:09
-
- 数据库 · MySQL | 1天前 |
- MySQL设置中文界面,超简单教程来了!
- 332浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql 索引提示
- MySQL进阶必看!FORCE/USE/IGNOREINDEX用法大揭秘
- 182浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- 手把手教你写MySQL存储过程,小白也能轻松上手
- 163浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql group by
- MySQL分组查询优化:GROUPBY原理+索引优化超全解析
- 324浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL设置中文语言,轻松拥有中文界面
- 211浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL建库语句从入门到精通:创建数据库+设置字符集&排序规则(附实例)
- 176浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- 从零开始学MySQL数据库操作,小白轻松变大神!
- 496浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL插入日期到时间字段,轻松搞定日期格式
- 484浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql 数据压缩
- MySQL怎么实现高效压缩存储?表压缩+列式存储详细解读
- 272浏览 收藏
-
- 数据库 · MySQL | 1天前 | mysql JOIN优化
- MySQL优化JOIN操作:七大技巧教你提升关联查询速度
- 106浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL出现中文乱码?超详细解决方案一次性搞定
- 211浏览 收藏
-
- 数据库 · MySQL | 1天前 |
- MySQL主从复制这样配!搞懂这些参数,replication稳了~
- 131浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 19次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 50次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 58次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 53次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 57次使用
-
- golang MySQL实现对数据库表存储获取操作示例
- 2022-12-22 499浏览
-
- 搞一个自娱自乐的博客(二) 架构搭建
- 2023-02-16 244浏览
-
- B-Tree、B+Tree以及B-link Tree
- 2023-01-19 235浏览
-
- mysql面试题
- 2023-01-17 157浏览
-
- MySQL数据表简单查询
- 2023-01-10 101浏览