ClickHouse Merge性能测试
小伙伴们有没有觉得学习数据库很有意思?有意思就对了!今天就给大家带来《ClickHouse Merge性能测试》,以下内容将会涉及到MySQL、PHP、列式数据库,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!
ClickHouse 性能测试
为了验证ClickHouse性能,将结合实际业务场景对clickhouse进行多维度测试。
造测试数据
在实际业务中最常见的业务场景,有二张表,订单主表和订单明细表
通常二张表会
join查询,或者
group by查询,下面就会使用
clickhouse对这种情况进行测试
定义表结构
test_order: 主表
表结构:
CREATE TABLE `test_order` ( `id` bigint(11) NOT NULL AUTO_INCREMENT, `field_name_1` varchar(60) NOT NULL, `field_name_2` varchar(60) NOT NULL, `field_name_3` varchar(60) NOT NULL, `field_name_4` varchar(60) NOT NULL, `field_name_5` varchar(60) NOT NULL, `field_name_6` varchar(60) NOT NULL, `field_name_7` varchar(60) NOT NULL, `field_name_8` varchar(60) NOT NULL, `field_name_9` varchar(60) NOT NULL, `field_name_10` varchar(60) NOT NULL, `field_id_1` int(11) NOT NULL, `field_id_2` int(11) NOT NULL, `field_id_3` int(11) NOT NULL, `field_id_4` int(11) NOT NULL, `field_id_5` int(11) NOT NULL, `field_id_6` int(11) NOT NULL, `field_id_7` int(11) NOT NULL, `field_id_8` int(11) NOT NULL, `field_id_9` int(11) NOT NULL, `field_id_10` int(11) NOT NULL, `field_date_1` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_2` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_3` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_4` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_5` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_6` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_7` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_8` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_9` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY (`id`), KEY `idx_field_1` (`field_name_1`,`field_id_1`) USING BTREE ) ENGINE=InnoDB AUTO_INCREMENT=1043 DEFAULT CHARSET=utf8mb4;
test_order_detail: 明细表,为了增加
sql查询复杂的,定义了41个字段
表结构
CREATE TABLE `test_order_detail` ( `id` bigint(11) NOT NULL AUTO_INCREMENT, `order_id` bigint(11) NOT NULL, `field_name_1` varchar(60) NOT NULL, `field_name_2` varchar(60) NOT NULL, `field_name_3` varchar(60) NOT NULL, `field_name_4` varchar(60) NOT NULL, `field_name_5` varchar(60) NOT NULL, `field_name_6` varchar(60) NOT NULL, `field_name_7` varchar(60) NOT NULL, `field_name_8` varchar(60) NOT NULL, `field_name_9` varchar(60) NOT NULL, `field_name_10` varchar(60) NOT NULL, `field_name_11` varchar(60) NOT NULL, `field_name_12` varchar(60) NOT NULL, `field_name_13` varchar(60) NOT NULL, `field_name_14` varchar(60) NOT NULL, `field_name_15` varchar(60) NOT NULL, `field_name_16` varchar(60) NOT NULL, `field_name_17` varchar(60) NOT NULL, `field_name_18` varchar(60) NOT NULL, `field_name_19` varchar(60) NOT NULL, `field_name_20` varchar(60) NOT NULL, `field_id_1` int(11) NOT NULL, `field_id_2` int(11) NOT NULL, `field_id_3` int(11) NOT NULL, `field_id_4` int(11) NOT NULL, `field_id_5` int(11) NOT NULL, `field_id_6` int(11) NOT NULL, `field_id_7` int(11) NOT NULL, `field_id_8` int(11) NOT NULL, `field_id_9` int(11) NOT NULL, `field_id_10` int(11) NOT NULL, `field_date_1` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_2` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_3` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_4` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_5` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_6` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_7` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_8` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, `field_date_9` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY (`id`), KEY `idx_order_id` (`order_id`) USING BTREE ) ENGINE=InnoDB AUTO_INCREMENT=18129081 DEFAULT CHARSET=utf8mb4;
写入测试数据到mysql
test_order是主表,插入
1024行数据
test_order_detail表是重头戏,这里分批次写入
1800万行数据,每列数据均使用随机函数生成,代码比较简单,就不展示了
到
mysql数据存储目录,
.ibd文件是
test_order_detail表的数据和索引文件内容,已经达到了
13G,数据量很大了
-rw-r-----@ 1 jiao staff 14K 8 15 12:46 test_order_detail.frm -rw-r-----@ 1 jiao staff 13G 8 16 20:30 test_order_detail.ibd
从mysql查询数据写到.csv
利用
clickhouse可以直接读取
csv文件插入到表中特性
这里从
mysql中每次读
10万数据写入一个
csv文件
生成了
180多个
.csv文件
➜ csv ll total 29852872 -rw-r--r-- 1 jiao staff 71M 8 21 18:10 1.csv -rw-r--r-- 1 jiao staff 74M 8 21 18:10 10.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:15 100.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:15 101.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:15 102.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:15 103.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:15 104.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 105.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 106.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 107.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 108.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 109.csv -rw-r--r-- 1 jiao staff 75M 8 21 18:10 11.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 110.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 111.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 112.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 113.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 114.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 115.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 116.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 117.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:16 118.csv -rw-r--r-- 1 jiao staff 78M 8 21 18:17 119.csv
使用php将csv文件插入到clickhouse
安装
php语言
clickhouse第三方包:https://github.com/smi2/phpClickHouse
该第三方包使用的是
http协议
先在
clickhouse中创建表
CREATE TABLE test.test_order_detail ( `id` Int64, `order_id` Int64, `field_name_1` String, `field_name_2` String, `field_name_3` String, `field_name_4` String, `field_name_5` String, `field_name_6` String, `field_name_7` String, `field_name_8` String, `field_name_9` String, `field_name_10` String, `field_name_11` String, `field_name_12` String, `field_name_13` String, `field_name_14` String, `field_name_15` String, `field_name_16` String, `field_name_17` String, `field_name_18` String, `field_name_19` String, `field_name_20` String, `field_id_1` Int64, `field_id_2` Int64, `field_id_3` Int64, `field_id_4` Int64, `field_id_5` Int64, `field_id_6` Int64, `field_id_7` Int64, `field_id_8` Int64, `field_id_9` Int64, `field_id_10` Int64, `field_date_1` DateTime, `field_date_2` DateTime, `field_date_3` DateTime, `field_date_4` DateTime, `field_date_5` DateTime, `field_date_6` DateTime, `field_date_7` DateTime, `field_date_8` DateTime, `field_date_9` DateTime ) ENGINE = MergeTree ORDER BY id SETTINGS index_granularity = 8192
执行脚本
php脚本,代码比较简单,部分代码如下
$begin = microtime(true); $config = [ 'host' => '172.16.101.134', 'port' => '8123', 'username' => 'caps', 'password' => '123456' ]; $db = new Client($config); $db->database('test'); $db->setTimeout(60); // 10 seconds $db->setConnectTimeOut(50); // 5 seconds // $tables = $db->showTables(); //insert from csv $connect = microtime(true); for ($j = 1; $j insertBatchFiles('test_order_detail_tmp', $file_data_names); usleep(1000); } echo microtime(true) - $begin . PHP_EOL; echo microtime(true) - $connect . PHP_EOL;
插入数据性能测试
表没有定义分区,每行数据随机生成,一共有42列,每行数据量0.8k左右
批量插入行数 | 耗时 | 数据量 |
---|---|---|
1千 | 0.05s | 0.7M |
1万 | 0.25s | 7.1M |
5万 | 1.0s | 36M |
10万 | 2.0s | 73M |
20万 | 3.6s | 146M |
在不同机器上测试结果可能出入很大,从本机器测试结果来看,每次插入数据适合1k - 5w,可以保证1秒之内就能成功。
插入数据可能会出现的错误
1.若设置了分区键,而插入的数据会导致分区太多,则插入失败,默认最大100个分区
2.插入数据太多导致的内存溢出
数据压缩比
1800万数据量
Mysql占用存储空间:13G
ClickHouse中占用:4.1G
由于所有字段都是随机生成,3倍多数据压缩比已经很高了,且lz4压缩算法的解压效率也非常高
查询性能测试
test_order_detail表
1800万数据
test_order表
1000行数据
下面对业务中比较常用的
sql进行测试
Test1
select count(*) from test.test_order_detail
统计总条数,非常常见的
sql了吧,
ClickHouse在
count.txt文件中保存了总条数,所以返回确实很快
Mysql耗时 | ClickHouse耗时 |
---|---|
20s | 0.003s |
clieckhouse 查询结果
1 rows in set. Elapsed: 0.003 sec.
Test2
select a.order_id,sum(a.field_id_1),sum(a.field_id_2) from test.test_order_detail as a join test.test_order as b on a.order_id = b.id group by a.order_id;
join表聚合数据 这个级别的数据mysql已经扛不住了
Mysql耗时 | ClickHouse耗时 |
---|---|
-- | 0.450s |
clieckhouse 查询结果,因为没有使用所有,扫描了全表,总共处理1800万行数据,没秒居然可以处理4000万行数据,效率非常高
1042 rows in set. Elapsed: 0.450 sec. Processed 18.13 million rows, 435.11 MB (40.28 million rows/s., 966.66 MB/s.)
Test3
select a.order_id,sum(a.field_id_1),sum(a.field_id_2) from test.test_order_detail as a join test.test_order as b on a.order_id = b.id group by a.order_id limit 1,20;
加个limit试试 等了很久mysql依然没有返回结果
Mysql耗时 | ClickHouse耗时 |
---|---|
-- | 0.574s |
clieckhouse 查询结果
20 rows in set. Elapsed: 0.574 sec. Processed 18.13 million rows, 435.11 MB (31.60 million rows/s., 758.37 MB/s.)
Test4
select count(*) from test.test_order_detail
单表聚合数据 等了很久mysql依然没有返回结果
Mysql耗时 | ClickHouse耗时 |
---|---|
-- | 0.212 |
clieckhouse 查询结果)
20 rows in set. Elapsed: 0.212 sec. Processed 18.13 million rows, 435.10 MB (85.63 million rows/s., 2.06 GB/s.)
总结
在数据量比较少的情况,且sql比较简单的场景下,mysql还是非常方便的,但在大数据场景下,mysql就捉襟见肘了,通过本文的以下简单测试,就是发现clickhouse非常适合大数据场景下的数据查询,利用
列式存储,
数据压缩特性,可以高效率处理数据,另外
SummingMergeTree、
AggregatingMergeTree更高效率的进行数据预聚合,有时间会进一步分享更多内容。
今天关于《ClickHouse Merge性能测试》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

- 上一篇
- SpringBoot项目实践过程中遇到过哪些问题?

- 下一篇
- 话说当年学习Java所踩过的坑。。。初学者必看
-
- 数据库 · MySQL | 18小时前 | 索引 数据类型 字符集 存储引擎 CREATETABLE
- MySQL新建表操作指南与建表技巧
- 462浏览 收藏
-
- 数据库 · MySQL | 1个月前 | 条件判断
- CASEWHEN条件判断的嵌套使用详解与实战场景分析
- 469浏览 收藏
-
- 数据库 · MySQL | 1个月前 | java php
- CSV文件批量导入MySQL的性能优化秘籍大揭秘
- 289浏览 收藏
-
- 数据库 · MySQL | 1个月前 |
- GaleraCluster多主集群配置与冲突解决攻略
- 239浏览 收藏
-
- 数据库 · MySQL | 1个月前 | 窗口函数实战
- MySQL窗口函数实战案例深度剖析
- 315浏览 收藏
-
- 数据库 · MySQL | 1个月前 | 自定义函数
- MySQL插件开发入门:自定义函数(UDF)编写指南
- 184浏览 收藏
-
- 数据库 · MySQL | 1个月前 |
- Windows系统MySQL8.0免安装版配置攻略
- 227浏览 收藏
-
- 数据库 · MySQL | 1个月前 | MySQL错误 数据库诊断
- 深度解析错误代码1045/1217/1205的根本原因及解决方案
- 202浏览 收藏
-
- 数据库 · MySQL | 1个月前 | sql注入 编码规范
- 防范SQL注入必备:编码规范与工具推荐指南
- 140浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 笔灵AI生成答辩PPT
- 探索笔灵AI生成答辩PPT的强大功能,快速制作高质量答辩PPT。精准内容提取、多样模板匹配、数据可视化、配套自述稿生成,让您的学术和职场展示更加专业与高效。
- 16次使用
-
- 知网AIGC检测服务系统
- 知网AIGC检测服务系统,专注于检测学术文本中的疑似AI生成内容。依托知网海量高质量文献资源,结合先进的“知识增强AIGC检测技术”,系统能够从语言模式和语义逻辑两方面精准识别AI生成内容,适用于学术研究、教育和企业领域,确保文本的真实性和原创性。
- 24次使用
-
- AIGC检测-Aibiye
- AIbiye官网推出的AIGC检测服务,专注于检测ChatGPT、Gemini、Claude等AIGC工具生成的文本,帮助用户确保论文的原创性和学术规范。支持txt和doc(x)格式,检测范围为论文正文,提供高准确性和便捷的用户体验。
- 30次使用
-
- 易笔AI论文
- 易笔AI论文平台提供自动写作、格式校对、查重检测等功能,支持多种学术领域的论文生成。价格优惠,界面友好,操作简便,适用于学术研究者、学生及论文辅导机构。
- 42次使用
-
- 笔启AI论文写作平台
- 笔启AI论文写作平台提供多类型论文生成服务,支持多语言写作,满足学术研究者、学生和职场人士的需求。平台采用AI 4.0版本,确保论文质量和原创性,并提供查重保障和隐私保护。
- 35次使用
-
- golang MySQL实现对数据库表存储获取操作示例
- 2022-12-22 499浏览
-
- 搞一个自娱自乐的博客(二) 架构搭建
- 2023-02-16 244浏览
-
- B-Tree、B+Tree以及B-link Tree
- 2023-01-19 235浏览
-
- mysql面试题
- 2023-01-17 157浏览
-
- MySQL数据表简单查询
- 2023-01-10 101浏览