MySQL单表千万级数据处理的思路分享
来源:脚本之家
2023-01-07 12:08:55
0浏览
收藏
本篇文章给大家分享《MySQL单表千万级数据处理的思路分享》,覆盖了数据库的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
项目背景
在处理过程中,今天上午需要更新A字段,下午爬虫组完成了规格书或图片的爬取又需要更新图片和规格书字段,由于单表千万级深度翻页会导致处理速度越来越慢。
select a,b,c from db.tb limit 10000 offset 9000000
但是时间是有限的,是否有更好的方法去解决这种问题呢?
改进思路
是否有可以不需要深度翻页也可以进行数据更新的凭据?
是的,利用自增id列
观察数据特征
此单表有自增id列且为主键,根据索引列查询数据和更新数据是最理想的途径。
select a,b, c from db.tb where id=9999999; update db.tb set a=x where id=9999999;
多进程处理
每个进程处理一定id范围内的数据,这样既避免的深度翻页又可以同时多进程处理数据。
提高数据查询速度的同时也提高了数据处理速度。
下面是我编写的任务分配函数,供参考:
def mission_handler(all_missions, worker_mission_size): """ 根据总任务数和每个worker的任务数计算出任务列表, 任务列表元素为(任务开始id, 任务结束id)。 例: 总任务数100个,每个worker的任务数40, 那么任务列表为:[(1, 40), (41, 80), (81, 100)] :param all_missions: 总任务数 :param worker_mission_size: 每个worker的最大任务数 :return: [(start_id, end_id), (start_id, end_id), ...] """ worker_mission_ids = [] current_id = 0 while current_id = all_missions else current_id + 1 end_id = all_missions if current_id + worker_mission_size >= all_missions else current_id + worker_mission_size if start_id == end_id: if worker_mission_ids[-1][1] == start_id: break worker_mission_ids.append((start_id, end_id)) current_id += worker_mission_size return worker_mission_ids
假设单表id最大值为100, 然后我们希望每个进程处理20个id,那么任务列表将为:
>>> mission_handler(100, 40) [(1, 40), (41, 80), (81, 100)]
那么,
进程1将只需要处理id between 1 to 40的数据;
进程2将只需要处理id between 41 to 80的数据;
进程3将只需要处理id between 81 to 100的数据。
from concurrent.futures import ProcessPoolExecutor def main(): # 自增id最大值 max_id = 30000000 # 单worker处理数据量 worker_mission_size = 1000000 # 使用多进程进行处理 missions = mission_handler(max_id, worker_mission_size) workers = [] executor = ProcessPoolExecutor() for idx, mission in enumerate(missions): start_id, end_id = mission workers.append(executor.submit(data_handler, start_id, end_id, idx)) def data_handler(start_id, end_id, worker_id): pass
思路总结
- 避免深度翻页进而使用自增id进行查询数据和数据
- 使用多进程处理数据
数据处理技巧
记录处理成功与处理失败的数据id,以便后续跟进处理
# 用另外一张表记录处理状态 insert into db.tb_handle_status(row_id, success) values (999, 0);
循环体内进行异常捕获,避免程序异常退出
def data_handler(start_id, end_id, worker_id): # 数据连接 conn, cursor = mysql() current_id = start_id try: while current_id更新数据库数据尽量使用批量提交
sql = """update db.tb set a=%s, b=%s where id=%s""" values = [ ('a_value', 'b_value', 9999), ('a_value', 'b_value', 9998), ... ] # 批量提交,减少网络io以及锁获取频率 cursor.executemany(sql, values)今天关于《MySQL单表千万级数据处理的思路分享》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于mysql的内容请关注golang学习网公众号!
版本声明
本文转载于:脚本之家 如有侵犯,请联系study_golang@163.com删除

- 上一篇
- MySQL 常见的数据表设计误区汇总

- 下一篇
- MySQL库表名大小写的选择
评论列表
-
- 优秀的发箍
- 很棒,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢楼主分享博文!
- 2023-02-10 00:52:59
-
- 成就的帆布鞋
- 这篇博文太及时了,太全面了,受益颇多,收藏了,关注师傅了!希望师傅能多写数据库相关的文章。
- 2023-02-07 21:22:12
-
- 务实的泥猴桃
- 真优秀,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢老哥分享技术文章!
- 2023-01-15 07:12:09
-
- 苗条的小鸽子
- 很详细,收藏了,感谢作者大大的这篇文章,我会继续支持!
- 2023-01-13 11:53:16
-
- 美好的画笔
- 这篇技术贴真及时,好细啊,真优秀,已收藏,关注大佬了!希望大佬能多写数据库相关的文章。
- 2023-01-08 18:53:55
查看更多
最新文章
-
- 数据库 · MySQL | 2小时前 | mysql 字符集 中文乱码 utf8mb4 utf8mb4_unicode_ci
- MySQL中文乱码解决方案与字符集修改命令大全
- 339浏览 收藏
-
- 数据库 · MySQL | 1天前 | 索引 数据类型 字符集 存储引擎 CREATETABLE
- MySQL新建表操作指南与建表技巧
- 462浏览 收藏
-
- 数据库 · MySQL | 1个月前 | 条件判断
- CASEWHEN条件判断的嵌套使用详解与实战场景分析
- 469浏览 收藏
-
- 数据库 · MySQL | 1个月前 | java php
- CSV文件批量导入MySQL的性能优化秘籍大揭秘
- 289浏览 收藏
-
- 数据库 · MySQL | 1个月前 |
- GaleraCluster多主集群配置与冲突解决攻略
- 239浏览 收藏
-
- 数据库 · MySQL | 1个月前 | 窗口函数实战
- MySQL窗口函数实战案例深度剖析
- 315浏览 收藏
查看更多
课程推荐
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
查看更多
AI推荐
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 20次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 29次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 35次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 43次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 36次使用
查看更多
相关文章
-
- MySQL数据处理梳理讲解增删改的操作
- 2023-01-07 146浏览
-
- MySQL循环插入千万级数据
- 2023-01-07 263浏览
-
- 80行代码爬取豆瓣Top250电影信息并导出到csv及数据库
- 2023-02-16 238浏览
-
- Mysql中的单表最大记录是多少
- 2023-02-25 456浏览