技术分享 | 快速处理 MySQL 重复数据小妙招
在数据库实战开发的过程中,我们经常会遇到一些这样那样的问题,然后要卡好半天,等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《技术分享 | 快速处理 MySQL 重复数据小妙招》,聊聊MySQL、数据库,希望可以帮助到正在努力赚钱的你。
作者:杨涛涛
正好最近在帮客户从达梦数据库迁移到 MySQL。我也来简单说说重复数据的处理。
存放在数据库中的数据分为三种:
- 一种是经过严格意义过滤出来的数据。比如程序端过滤数据源、数据库端在表字段上设置 check 标记过滤数据源、设置触发器过滤、调用存储过程过滤等等;
- 另一种是原始的没有经过任何处理的数据。比如程序端代码异常导致产生非正常的想要的数据、数据库端没有设置任何过滤规则的数据保留等等。这样会产生一系列垃圾数据,当然也包含了我今天要说的重复的数据;
- 最后一种是 SQL 语句在执行过程中可能产生的重复数据,比如两表外联,总会产生一系列 NULL。今天我要说的重复数据,不包含 SQL 语句在执行中产生的重复数据,只包含了原始重复数据的处理。接下来,用几个经典的场景来说下,
第一种,记录完全重复,这其实是最最简单的去重场景。
比如无主键的表 d1
mysql-(ytt/3305)->show create table d1\G *************************** 1. row *************************** Table: d1 Create Table: CREATE TABLE `d1` ( `r1` int(11) DEFAULT NULL, `r2` int(11) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci 1 row in set (0.00 sec)
记录数总共为四百万。
mysql-(ytt/3305)->select count(*) from d1 limit 2; +----------+ | count(*) | +----------+ | 4000000 | +----------+ 1 row in set (0.18 sec)
可以看到足足有四分之三的记录是重复的。
mysql-(ytt/3305)->select count(distinct r1,r2) from d1 ; +-----------------------+ | count(distinct r1,r2) | +-----------------------+ | 1000000 | +-----------------------+ 1 row in set (2.68 sec)
比如记录(1,1)就有四条。
mysql-(ytt/3305)-> select * from db1 order by r1,r2 limit 5; +------+------+ | r1 | r2 | +------+------+ | 1 | 1 | | 1 | 1 | | 1 | 1 | | 1 | 1 | | 2 | 2 | +------+------+ 5 rows in set (1.65 sec)
这种去重非常简单,要么在数据库层做,要么把数据导出来筛选好在导到数据库里来。
在数据库里做,无非就是新建一张克隆表,完了把正常数据筛选出来,再重新命名后,删掉原来的表,步骤也不是非常繁琐,例子如下:
mysql-(ytt/3305)->create table d2 like d1; Query OK, 0 rows affected (0.01 sec)
时间主要耗费在去重并且插入新表这里
mysql-(ytt/3305)->insert into d2 select distinct r1,r2 from d1; Query OK, 1000000 rows affected (19.40 sec) Records: 1000000 Duplicates: 0 Warnings: 0 mysql-(ytt/3305)->alter table d1 rename to d1_bak; Query OK, 0 rows affected (0.00 sec) mysql-(ytt/3305)->alter table d2 rename to d1; Query OK, 0 rows affected (0.00 sec) mysql-(ytt/3305)->drop table d1_bak; Query OK, 0 rows affected (0.00 sec)
上面总共花了大概 20 秒的样子,再来看看在系统层面上去重,先导出数据,
mysql-(ytt/3305)->select * from db1 into outfile '/var/lib/mysql-files/d1.txt'; Query OK, 4000000 rows affected (1.84 sec)
系统层面去重,用 OS 自带的工具 sort 和 uniq。
root@ytt-pc:/var/lib/mysql-files# time cat d1.txt |sort -g |uniq > d1_uniq.txt real 0m7.345s user 0m7.528s sys 0m0.272s
导入到原表,
mysql-(ytt/3305)->truncate table d1; Query OK, 0 rows affected (0.05 sec) root@ytt-pc:/var/lib/mysql-files# mv d1_uniq.txt d1.txt
把处理好的数据直接导入到数据库
root@ytt-pc:/home/ytt/scripts# time mysqlimport -uytt -pytt -P3305 -h 127.0.0.1 --use-threads=2 -vvv ytt /var/lib/mysql-files/d1.txt mysqlimport: [Warning] Using a password on the command line interface can be insecure. Connecting to 127.0.0.1 Selecting database ytt Loading data from SERVER file: /var/lib/mysql-files/d1.txt into d1 ytt.d1: Records: 1000000 Deleted: 0 Skipped: 0 Warnings: 0 Disconnecting from 127.0.0.1 real 0m3.272s user 0m0.012s sys 0m0.008s
看下处理好的记录,
mysql-(ytt/3305)->select * from d1 where 1 order by r1,r2 limit 2; +------+------+ | r1 | r2 | +------+------+ | 1 | 1 | | 2 | 2 | +------+------+ 2 rows in set (0.40 sec)
OS 层面稍微效率高些,总体包括数据导出,数据去重,数据导入,差不多是数据库层时间的一半。
第二种,其实和第一种类似,不同的是表有主键,但是其他的字段记录值是重复的。
举个例子,表 d4 除了加了主键,其他的记录和之前的一模一样。记录如下:
mysql-(ytt/3305)->select * from d4 order by r1,r2 limit 5; +---------+------+------+ | id | r1 | r2 | +---------+------+------+ | 1 | 1 | 1 | | 3000001 | 1 | 1 | | 2000001 | 1 | 1 | | 1000001 | 1 | 1 | | 2 | 2 | 2 | +---------+------+------+ 5 rows in set (1.08 sec)
但是这种一般就得需要和具体的业务商量了,比如我需要留下重复记录的最大主键值,比如上面这个,留下最大的 id 为 3000001 这条记录。这样的去重一条 sql 就搞定了,
mysql-(ytt/3305)->delete a from d4 a left join (select max(id) id from d4 group by r1, r2) b using(id) where b.id is null; Query OK, 3000000 rows affected (23.29 sec)
去掉了 300W 行重复记录,剩下四分之一的正常数据。
mysql-(ytt/3305)->select count(*) from d4; +----------+ | count(*) | +----------+ | 1000000 | +----------+ 1 row in set (0.06 sec)
来看下效果,保留了最大值,其他的删掉了。
mysql-(ytt/3305)->select * from d4 order by r1,r2 limit 5; +---------+------+------+ | id | r1 | r2 | +---------+------+------+ | 3000001 | 1 | 1 | | 3000002 | 2 | 2 | | 3000003 | 3 | 3 | | 3000004 | 4 | 4 | | 3000005 | 5 | 5 | +---------+------+------+ 5 rows in set (0.25 sec)
第三种,不同于前面两种,这种体现在字段值里多余的字符,比如空格,多余的换行符等。依然看看几个例子:
1.去掉字段值内前后的空白字符,是这类里最简单的。这种 MySQL 有现成的函数,一条基础的 SQL 即可。
表y11 有500W行示例数据 mysql-(ytt/3305)->select count(*) from y11; +----------+ | count(*) | +----------+ | 5242880 | +----------+ 1 row in set (0.30 sec)
利用 trim 函数。
mysql-(ytt/3305)->update y11 set r1 = trim(r1), r2 = trim(r2); Query OK, 5242880 rows affected (2 min 1.56 sec) Rows matched: 5242880 Changed: 5242880 Warnings: 0 mysql-(ytt/3305)->select * from y11 limit 5; +----+------------------------+------------------------+ | id | r1 | r2 | +----+------------------------+------------------------+ | 1 | sql server | sql server | | 2 | sql server | sql server | | 3 | sql server | sql server | | 6 | db2 mysql oracle mysql | db2 mysql oracle mysql | | 7 | db2 mysql oracle mysql | db2 mysql oracle mysql | +----+------------------------+------------------------+ 5 rows in set (0.00 sec)
2.去掉单词中间的各种空白字符(空格,换行,制表符等);单词前后,中间都有空格的场景。
依然是表 y11,从结果来看,各种换行符,空格已经让结果无法正常显示了。
mysql-(ytt/3305)->select * from y11 limit 5; +----+-----------------------------------------------------+------------------------------------------------------+ | id | r1 | r2 | +----+-----------------------------------------------------+------------------------------------------------------+ | 1 | sql server | sql server | | 2 | sql server | sql server | server | sql server | | mysql | db2 mysql oracle | 7 | db2 mysql oracle mysql | db2 mysql oracle mysql +----+-----------------------------------------------------+------------------------------------------------------+ 5 rows in set (0.00 sec)
可能最先想到的方法是把数据导出为文本文件,完了用 linux 上的各种工具处理完了再导进去,比如:
mysql-(ytt/3305)->select * from y11 into outfile '/var/lib/mysql-files/y11.txt' fields terminated by ',' enclosed by '"'; Query OK, 5242880 rows affected (3.54 sec) mysql-(ytt/3305)->truncate y11; Query OK, 0 rows affected (0.23 sec)
用 sed 处理下,替换掉所有的空白字符。
root@ytt-pc:/var/lib/mysql-files# time sed -i 's/\s\+/ /g' y11.txt real 0m27.476s user 0m20.105s sys 0m7.233s
导入到表 y11
mysql-(ytt/3305)->load data infile '/var/lib/mysql-files/y11.txt' into table y11 fields terminated by ',' enclosed by '"'; Query OK, 5242880 rows affected (30.25 sec) Records: 5242880 Deleted: 0 Skipped: 0 Warnings: 0
上面虽然达成了目的,但是过程过于繁琐,如果 MySQL 层实在解决不了再考虑。
完全可以利用 MySQL 的正则替换功能直接替换掉多余的字符为一个空格,也是一条简单的 SQL。
mysql-(ytt/3305)->update y11 set r1 = regexp_replace(r1,'[[:space:]]+',' '), r2 = regexp_replace(r2,'[[:space:]]+',' '); Query OK, 4194304 rows affected (1 min 32.05 sec) Rows matched: 5242880 Changed: 4194304 Warnings: 0
只是时间上稍微长些,不过也影响不是很大。
mysql-(ytt/3305)->select * from y11 limit 5; +----+------------------------+-------------------------+ | id | r1 | r2 | +----+------------------------+-------------------------+ | 1 | sql server | sql server | | 2 | sql server | sql server | | 3 | sql server | sql server | | 6 | db2 mysql oracle mysql | db2 mysql oracle mysql | | 7 | db2 mysql oracle mysql | db2 mysql oracle mysql | +----+------------------------+-------------------------+ 5 rows in set (0.00 sec)
我想可能日常数据处理难免会有数据去重的场景,希望这部分内容对大家有帮助。
以上就是《技术分享 | 快速处理 MySQL 重复数据小妙招》的详细内容,更多关于mysql的资料请关注golang学习网公众号!

- 上一篇
- MySQL 的覆盖索引与回表

- 下一篇
- mysql主从复制原理及操作
-
- 踏实的宝马
- 这篇文章太及时了,博主加油!
- 2023-04-26 11:50:19
-
- 现代的招牌
- 赞 👍👍,一直没懂这个问题,但其实工作中常常有遇到...不过今天到这,帮助很大,总算是懂了,感谢师傅分享技术文章!
- 2023-04-26 06:13:35
-
- 合适的鱼
- 这篇技术贴出现的刚刚好,很详细,感谢大佬分享,已加入收藏夹了,关注老哥了!希望老哥能多写数据库相关的文章。
- 2023-03-21 04:18:44
-
- 孝顺的红牛
- 太细致了,已加入收藏夹了,感谢楼主的这篇文章内容,我会继续支持!
- 2023-01-31 19:15:16
-
- 数据库 · MySQL | 6分钟前 |
- 手把手教你安装MySQL!保姆级教程+超详细配置步骤
- 324浏览 收藏
-
- 数据库 · MySQL | 1小时前 |
- MySQL中as关键字的作用+使用技巧(附带案例代码)
- 273浏览 收藏
-
- 数据库 · MySQL | 1小时前 | mysql 慢查询日志 SQL执行历史 PerformanceSchema 通用查询日志
- MySQL怎么查看SQL执行历史?通用日志+performance_schema实操教学
- 360浏览 收藏
-
- 数据库 · MySQL | 2小时前 |
- MySQL出现中文乱码?超详细解决方法教学
- 467浏览 收藏
-
- 数据库 · MySQL | 3小时前 |
- 电脑没装MySQL?手把手教你快速检测!
- 353浏览 收藏
-
- 数据库 · MySQL | 4小时前 | mysql 超长文本存储
- MySQL优化TEXT&BLOB存储,超长文本字段这么处理就对了!
- 271浏览 收藏
-
- 数据库 · MySQL | 4小时前 |
- Mac装mysql找不到?手把手教你快速安装配置!
- 252浏览 收藏
-
- 数据库 · MySQL | 6小时前 |
- MySQLGroupBy优化:分组查询提速实战指南
- 294浏览 收藏
-
- 数据库 · MySQL | 6小时前 |
- MySQL数据库管理员必须掌握的30个常用命令
- 379浏览 收藏
-
- 数据库 · MySQL | 6小时前 |
- MySQL进阶必看:having和where到底有啥区别?啥时候用having最合适!
- 457浏览 收藏
-
- 数据库 · MySQL | 6小时前 |
- MySQLjoin查询太慢?手把手教你优化策略(附实战案例)
- 290浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 48次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 69次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 80次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 73次使用
-
- Suno苏诺中文版
- 探索Suno苏诺中文版,一款颠覆传统音乐创作的AI平台。无需专业技能,轻松创作个性化音乐。智能词曲生成、风格迁移、海量音效,释放您的音乐灵感!
- 77次使用
-
- golang MySQL实现对数据库表存储获取操作示例
- 2022-12-22 499浏览
-
- 搞一个自娱自乐的博客(二) 架构搭建
- 2023-02-16 244浏览
-
- B-Tree、B+Tree以及B-link Tree
- 2023-01-19 235浏览
-
- mysql面试题
- 2023-01-17 157浏览
-
- MySQL数据表简单查询
- 2023-01-10 101浏览