Pydruid查询教程:Python操作Druid指南
本文详细介绍了如何使用Python的pydruid库操作Apache Druid,重点讲解了pydruid查询教程。首先,介绍了如何安装pydruid,并通过QueryBuilder和直接构造JSON两种方式发送查询请求至Druid集群。核心查询字段包括dataSource、intervals、granularity、aggregations和dimensions。针对查询慢的问题,文章提供了索引优化、数据分片、避免全表扫描等多种优化方法。此外,还深入探讨了时间戳的处理,包括ISO 8601格式、timestampSpec配置、时区转换等关键点。对于复杂聚合查询,如百分位数计算,则需构造包含quantilesDoublesSketch聚合器的JSON查询,并确保datasketches扩展已加载。最后,建议可考虑使用druidapi等更高级库简化复杂查询构建。
首先,使用pydruid库操作Apache Druid需构建JSON查询并发送至Druid集群;1. 安装pydruid:pip install pydruid;2. 使用QueryBuilder或直接构造JSON发送请求;3. 查询包含dataSource、intervals、granularity、aggregations和dimensions等核心字段;4. 针对查询慢问题,优化方法包括:优化索引、合理分片、避免全表扫描、减少返回列数、使用limit、启用近似查询、开启缓存、调优资源、优化数据模型、避免复杂JOIN、升级pydruid版本;5. 处理时间戳需注意ISO 8601格式、数据摄入时配置timestampSpec、查询时使用datetime对象、处理时区转换、合理设置时间粒度、处理Null值及使用bound过滤;6. 对于复杂聚合如百分位数,需构造含quantilesDoublesSketch聚合器和quantilesDoublesSketchToQuantiles后聚合器的JSON查询,并确保datasketches扩展已加载;7. 可考虑使用druidapi等更高级库简化复杂查询构建。
Python操作Apache Druid,核心在于构建查询并发送给Druid集群。通常,你会使用pydruid
这个库,它简化了与Druid交互的过程。pydruid
查询的重点在于构造合适的JSON查询体,并处理Druid返回的结果。
解决方案
首先,你需要安装pydruid
:
pip install pydruid
然后,就可以开始构建查询了。一个基本的Druid查询包含以下几个部分:dataSource
(数据源),intervals
(时间范围),granularity
(时间粒度),aggregations
(聚合操作)和 dimensions
(维度)。
例如,要查询名为wikipedia
的数据源,统计过去24小时内每个小时的事件数量,可以这样写:
from pydruid.client import * from pydruid.query import QueryBuilder import datetime client = PyDruid('http://your_druid_host:8082', 'druid/v2') # 替换为你的Druid Coordinator地址 q = QueryBuilder() q.datasource('wikipedia') q.intervals(datetime.datetime.now() - datetime.timedelta(days=1), datetime.datetime.now()) q.granularity('hour') q.aggregator('count', 'events') results = client.query(q) for row in results: print(row)
这段代码首先连接到Druid Coordinator,然后使用QueryBuilder
构建一个查询。datasource
指定了数据源,intervals
指定了查询的时间范围,granularity
指定了时间粒度为小时,aggregator
指定了聚合操作为统计事件数量。最后,使用client.query(q)
执行查询,并打印结果。
除了QueryBuilder
,你也可以直接构建JSON查询体,然后发送给Druid。这种方式更灵活,可以支持更复杂的查询。
import requests import json druid_url = 'http://your_druid_host:8082/druid/v2/?pretty' # 替换为你的Druid Coordinator地址 query = { "queryType": "groupBy", "dataSource": "wikipedia", "intervals": [ f"{datetime.datetime.now() - datetime.timedelta(days=1)}/{datetime.datetime.now()}" ], "granularity": "hour", "dimensions": [], "aggregations": [ {"type": "count", "name": "events"} ], "limit": 10 } headers = {'Content-Type': 'application/json'} response = requests.post(druid_url, data=json.dumps(query), headers=headers) if response.status_code == 200: results = response.json() for row in results: print(row) else: print(f"Error: {response.status_code} - {response.text}")
这段代码直接构建了一个JSON查询体,并使用requests
库发送给Druid。注意,你需要根据你的Druid集群配置修改druid_url
。
pydruid查询慢,有哪些优化方法?
索引优化: Druid的性能很大程度上取决于索引。确保你的数据源配置了合适的索引,特别是针对经常用于过滤和分组的维度。检查
indexSpec
,确保使用了合适的bitmap索引和column索引。例如,string
类型的维度列,可以考虑使用invertedIndex
。数据分片: Druid通过segment来组织数据。合理的分片策略可以提高查询性能。过大或过小的segment都会影响性能。一般来说,每个segment的大小在300MB到700MB之间比较合适。检查你的
segmentGranularity
配置。查询优化: 避免全表扫描。尽量使用时间范围过滤,缩小查询范围。尽量减少返回的列数,只选择需要的列。合理使用
limit
,避免返回过多的数据。资源调优: 确保你的Druid集群有足够的资源。增加Historical节点的数量,提高查询并发能力。调整Historical节点的内存大小,提高数据缓存能力。检查Coordinator和Overlord节点的配置,确保它们能够及时处理任务。
使用近似查询: 对于一些不需要精确结果的查询,可以使用近似查询,例如
approxCountDistinct
。近似查询可以显著提高查询性能。缓存: Druid有两级缓存:query cache和result cache。确保query cache开启,可以缓存最近的查询结果。Result cache可以缓存更细粒度的结果,但需要额外的配置。
监控和诊断: 使用Druid的监控工具,例如Druid Console,监控查询性能。分析查询日志,找出慢查询的原因。使用Druid的查询分析工具,例如
explain
命令,分析查询计划。数据建模: 优化数据模型。如果你的数据源包含多个维度,可以考虑使用rollup,预先计算一些聚合结果。Rollup可以显著提高查询性能,但会增加数据摄入的复杂度。
避免使用复杂的JOIN操作: Druid本身并不擅长复杂的JOIN操作。尽量在数据摄入阶段完成JOIN操作,或者使用lookup external。
Pydruid版本: 确保使用的
pydruid
是最新版本,新版本可能包含性能优化。
如何处理pydruid查询中的时间戳问题?
时间戳在Druid中至关重要,因为它用于数据分片和查询过滤。在pydruid
中处理时间戳,需要注意以下几点:
Druid的时间戳格式: Druid默认使用ISO 8601格式的时间戳,例如
2023-10-27T10:00:00.000Z
。确保你的时间戳数据符合这个格式。数据摄入: 在数据摄入阶段,需要指定时间戳列。通常,你会使用
timestampSpec
来配置时间戳列的名称和格式。如果你的时间戳数据不是ISO 8601格式,你需要指定format
参数。{ "type": "index_parallel", "spec": { "dataSchema": { "dataSource": "your_data_source", "timestampSpec": { "column": "your_timestamp_column", "format": "yyyy-MM-dd HH:mm:ss" }, "dimensionsSpec": { "dimensions": [ "dimension1", "dimension2" ] }, "metricsSpec": [ { "type": "count", "name": "count" } ] }, "ioConfig": { "type": "index_parallel", "inputSource": { "type": "local", "baseDir": "/path/to/your/data", "filter": "*.csv" }, "inputFormat": { "type": "csv", "columns": [ "your_timestamp_column", "dimension1", "dimension2" ] } }, "tuningConfig": { "type": "index_parallel", "maxRowsInMemory": 75000, "forceGuaranteedRollup": true } } }
查询时间范围: 在
pydruid
查询中,你需要使用datetime
对象来指定时间范围。pydruid
会自动将datetime
对象转换为Druid需要的ISO 8601格式。from pydruid.client import * from pydruid.query import QueryBuilder import datetime client = PyDruid('http://your_druid_host:8082', 'druid/v2') q = QueryBuilder() q.datasource('your_data_source') q.intervals(datetime.datetime(2023, 10, 26), datetime.datetime(2023, 10, 27)) q.granularity('day') q.aggregator('count', 'events') results = client.query(q) for row in results: print(row)
时区问题: Druid内部使用UTC时间。如果你的时间戳数据不是UTC时间,你需要进行时区转换。可以在数据摄入阶段进行时区转换,也可以在查询阶段进行时区转换。
时间粒度: 在查询时,你需要指定时间粒度。时间粒度决定了Druid如何聚合数据。常见的时间粒度包括
all
,year
,month
,day
,hour
,minute
,second
。处理Null时间戳: 有时,你的数据可能包含Null时间戳。你需要决定如何处理这些Null时间戳。可以选择忽略这些数据,也可以选择使用默认时间戳填充。
时间戳过滤: 在查询时,可以使用时间戳过滤来缩小查询范围。可以使用
bound
过滤器来指定时间范围。{ "type": "timeseries", "dataSource": "your_data_source", "intervals": [ "2023-10-26T00:00:00.000Z/2023-10-27T00:00:00.000Z" ], "granularity": "day", "aggregations": [ { "type": "count", "name": "events" } ], "filters": [ { "type": "bound", "dimension": "__time", "lower": "2023-10-26T12:00:00.000Z", "upper": "2023-10-26T18:00:00.000Z", "ordering": "numeric" } ] }
pydruid如何进行更复杂的聚合查询,例如计算百分位数?
对于更复杂的聚合查询,例如计算百分位数,pydruid
可能不够直接。你需要构造更底层的JSON查询,利用Druid的quantilesDoublesSketch
聚合器。
首先,你需要确保你的Druid集群已经加载了datasketches
扩展。
然后,你可以构建如下的JSON查询:
import requests import json import datetime druid_url = 'http://your_druid_host:8082/druid/v2/?pretty' query = { "queryType": "groupBy", "dataSource": "your_data_source", "intervals": [ f"{datetime.datetime.now() - datetime.timedelta(days=1)}/{datetime.datetime.now()}" ], "granularity": "all", "dimensions": [], "aggregations": [ { "type": "quantilesDoublesSketch", "name": "value_sketch", "fieldName": "your_value_column", "k": 128 # 可选,控制精度,默认值是128 } ], "postAggregations": [ { "type": "quantilesDoublesSketchToQuantiles", "name": "quantiles", "field": { "type": "fieldAccess", "fieldName": "value_sketch" }, "fractions": [0.25, 0.5, 0.75, 0.9, 0.99] # 要计算的百分位数 } ] } headers = {'Content-Type': 'application/json'} response = requests.post(druid_url, data=json.dumps(query), headers=headers) if response.status_code == 200: results = response.json() for row in results: print(row) else: print(f"Error: {response.status_code} - {response.text}")
这个查询首先使用quantilesDoublesSketch
聚合器计算your_value_column
的sketch。然后,使用quantilesDoublesSketchToQuantiles
post-aggregator计算指定的百分位数。
fieldName
指定了要计算百分位数的列。fractions
指定了要计算的百分位数,例如[0.25, 0.5, 0.75]
表示计算25%,50%和75%的百分位数。
注意,k
参数控制了quantilesDoublesSketch
的精度。k
越大,精度越高,但内存消耗也越大。
除了百分位数,Druid还支持其他的复杂聚合操作,例如approxCountDistinct
(近似去重计数),thetaSketch
(用于集合操作)等。你可以根据你的需求选择合适的聚合器。
使用pydruid
构建复杂的JSON查询可能比较繁琐。你可以考虑使用其他的Python库,例如druidapi
,它提供了更高级的API,可以更方便地构建复杂的查询。
本篇关于《Pydruid查询教程:Python操作Druid指南》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!

- 上一篇
- async函数让异步更轻松

- 下一篇
- Java点云处理:PCL库集成教程
-
- 文章 · python教程 | 40秒前 |
- Python图像处理性能优化与并发实战
- 476浏览 收藏
-
- 文章 · python教程 | 2分钟前 |
- Python自动化办公:pyautogui实战教程
- 371浏览 收藏
-
- 文章 · python教程 | 12分钟前 |
- YOLOv8图像尺寸适配解析与应用
- 392浏览 收藏
-
- 文章 · python教程 | 24分钟前 |
- Python操作Redis事务详解
- 141浏览 收藏
-
- 文章 · python教程 | 32分钟前 |
- PythonGUI自动化教程:PyAutoGUI使用详解
- 459浏览 收藏
-
- 文章 · python教程 | 41分钟前 |
- PythonPyqt5开发教程:桌面应用入门指南
- 146浏览 收藏
-
- 文章 · python教程 | 44分钟前 |
- Python计算百分比的实用方法
- 249浏览 收藏
-
- 文章 · python教程 | 55分钟前 |
- Pythoncumsum函数使用详解
- 239浏览 收藏
-
- 文章 · python教程 | 58分钟前 | Python Python编程
- Python操作YAML文件教程:PyYAML使用详解
- 461浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python代码审计:AST遍历实战教程
- 489浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 113次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 109次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 126次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 118次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 122次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览