MySQL单表千万级数据处理的思路分享
来源:脚本之家
2023-01-07 12:08:55
0浏览
收藏
本篇文章给大家分享《MySQL单表千万级数据处理的思路分享》,覆盖了数据库的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。
项目背景
在处理过程中,今天上午需要更新A字段,下午爬虫组完成了规格书或图片的爬取又需要更新图片和规格书字段,由于单表千万级深度翻页会导致处理速度越来越慢。
select a,b,c from db.tb limit 10000 offset 9000000
但是时间是有限的,是否有更好的方法去解决这种问题呢?
改进思路
是否有可以不需要深度翻页也可以进行数据更新的凭据?
是的,利用自增id列
观察数据特征
此单表有自增id列且为主键,根据索引列查询数据和更新数据是最理想的途径。
select a,b, c from db.tb where id=9999999; update db.tb set a=x where id=9999999;
多进程处理
每个进程处理一定id范围内的数据,这样既避免的深度翻页又可以同时多进程处理数据。
提高数据查询速度的同时也提高了数据处理速度。
下面是我编写的任务分配函数,供参考:
def mission_handler(all_missions, worker_mission_size):
"""
根据总任务数和每个worker的任务数计算出任务列表, 任务列表元素为(任务开始id, 任务结束id)。
例: 总任务数100个,每个worker的任务数40, 那么任务列表为:[(1, 40), (41, 80), (81, 100)]
:param all_missions: 总任务数
:param worker_mission_size: 每个worker的最大任务数
:return: [(start_id, end_id), (start_id, end_id), ...]
"""
worker_mission_ids = []
current_id = 0
while current_id = all_missions else current_id + 1
end_id = all_missions if current_id + worker_mission_size >= all_missions else current_id + worker_mission_size
if start_id == end_id:
if worker_mission_ids[-1][1] == start_id:
break
worker_mission_ids.append((start_id, end_id))
current_id += worker_mission_size
return worker_mission_ids
假设单表id最大值为100, 然后我们希望每个进程处理20个id,那么任务列表将为:
>>> mission_handler(100, 40) [(1, 40), (41, 80), (81, 100)]
那么,
进程1将只需要处理id between 1 to 40的数据;
进程2将只需要处理id between 41 to 80的数据;
进程3将只需要处理id between 81 to 100的数据。
from concurrent.futures import ProcessPoolExecutor
def main():
# 自增id最大值
max_id = 30000000
# 单worker处理数据量
worker_mission_size = 1000000
# 使用多进程进行处理
missions = mission_handler(max_id, worker_mission_size)
workers = []
executor = ProcessPoolExecutor()
for idx, mission in enumerate(missions):
start_id, end_id = mission
workers.append(executor.submit(data_handler, start_id, end_id, idx))
def data_handler(start_id, end_id, worker_id):
pass
思路总结
- 避免深度翻页进而使用自增id进行查询数据和数据
- 使用多进程处理数据
数据处理技巧
记录处理成功与处理失败的数据id,以便后续跟进处理
# 用另外一张表记录处理状态 insert into db.tb_handle_status(row_id, success) values (999, 0);
循环体内进行异常捕获,避免程序异常退出
def data_handler(start_id, end_id, worker_id):
# 数据连接
conn, cursor = mysql()
current_id = start_id
try:
while current_id
<p>更新数据库数据尽量使用批量提交</p>
<pre class="brush:py;">
sql = """update db.tb set a=%s, b=%s where id=%s"""
values = [
('a_value', 'b_value', 9999),
('a_value', 'b_value', 9998),
...
]
# 批量提交,减少网络io以及锁获取频率
cursor.executemany(sql, values)
今天关于《MySQL单表千万级数据处理的思路分享》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于mysql的内容请关注golang学习网公众号!
版本声明
本文转载于:脚本之家 如有侵犯,请联系study_golang@163.com删除
MySQL 常见的数据表设计误区汇总
- 上一篇
- MySQL 常见的数据表设计误区汇总
- 下一篇
- MySQL库表名大小写的选择
查看更多
最新文章
-
- 数据库 · MySQL | 1天前 |
- MySQL数值函数大全及使用技巧
- 117浏览 收藏
-
- 数据库 · MySQL | 2天前 |
- 三种登录MySQL方法详解
- 411浏览 收藏
-
- 数据库 · MySQL | 3天前 |
- MySQL数据备份方法与工具推荐
- 420浏览 收藏
-
- 数据库 · MySQL | 3天前 |
- MySQL数据备份方法与工具推荐
- 264浏览 收藏
-
- 数据库 · MySQL | 4天前 |
- MySQL索引的作用是什么?
- 266浏览 收藏
-
- 数据库 · MySQL | 5天前 |
- MySQL排序原理与实战应用
- 392浏览 收藏
-
- 数据库 · MySQL | 1星期前 |
- MySQLwhere条件查询技巧
- 333浏览 收藏
-
- 数据库 · MySQL | 1星期前 |
- MySQL常用数据类型有哪些?怎么选更合适?
- 234浏览 收藏
-
- 数据库 · MySQL | 1星期前 |
- MySQL常用命令大全管理员必学30条
- 448浏览 收藏
-
- 数据库 · MySQL | 1星期前 |
- MySQL高效批量插入数据方法大全
- 416浏览 收藏
-
- 数据库 · MySQL | 1星期前 |
- MySQL性能优化技巧大全
- 225浏览 收藏
-
- 数据库 · MySQL | 1星期前 |
- MySQL数据备份4种方法保障安全
- 145浏览 收藏
查看更多
课程推荐
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
查看更多
AI推荐
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3164次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3376次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3405次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4507次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3785次使用
查看更多
相关文章
-
- MySQL数据处理梳理讲解增删改的操作
- 2023-01-07 146浏览
-
- MySQL循环插入千万级数据
- 2023-01-07 263浏览
-
- Mysql中的单表最大记录是多少
- 2023-02-25 456浏览
-
- 80行代码爬取豆瓣Top250电影信息并导出到csv及数据库
- 2023-02-16 238浏览

