Redis中 HyperLogLog数据类型使用小结
一分耕耘,一分收获!既然打开了这篇文章《Redis中 HyperLogLog数据类型使用小结》,就坚持看下去吧!文中内容包含数据类型、RedisHyperLogLog等等知识点...希望你能在阅读本文后,能真真实实学到知识或者帮你解决心中的疑惑,也欢迎大佬或者新人朋友们多留言评论,多给建议!谢谢!
1. HyperLogLog 的原理
Redis HyperLogLog基于一种称为HyperLogLog算法的概率性算法来估计基数。 HyperLogLog使用一个长度为m的位数组和一些hash函数来估计集合中的唯一元素数。
在 HyperLogLog 算法中,对每个元素进行哈希处理,把哈希值转换为二进制后,根据二进制串前缀中 1 的个数来给每个元素打分。例如,一个元素的哈希值为01110100011,那么前缀中1的个数是3,因此在 HyperLogLog 算法中,这个元素的分数为3。
当所有元素的分数统计完之后,取每一个分数的倒数(1 / 2^n),然后将这些倒数相加后取倒数,就得到一个基数估计值,这个值就是HyperLogLog算法的估计结果。
HyperLogLog算法通过对位数组的长度m的大小进行取舍,折衷数据结构占用的内存与估计值的精准度(即估计误差),得到了在数据占用空间与错误较小程度之间完美的平衡。
简而言之,HyperLogLog算法的核心思想是基于哈希函数和位运算,通过将哈希值转换成比特流并统计前导0的个数,从而快速估算大型数据集中唯一值的数量。通过 hyperloglog 算法我们可以在非常大的数据集中进行极速的网页浏览器去重。
2.使用步骤:
Redis HyperLogLog是一种可用于估算集合中元素数量的数据结构,它能够通过使用非常少的内存来维护海量的数据。它的精确度要比使用一般的估计算法高,并且在处理大量数据时的速度也非常快。
一个简单的例子,我们可以用HyperLogLog来计算访问网站的独立IP数,具体可以按以下步骤操作:
- 首先创建一个HyperLogLog数据结构:
PFADD hll:unique_ips 127.0.0.1
- 为每次访问ip添加到unique_ips数据结构中:
PFADD hll:unique_ips 192.168.1.1
- 获取计算集合中元素数量的近似值:
PFCOUNT hll:unique_ips
- 可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。
需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。
3.实现请求ip去重的浏览量使用示例
4.Jedis客户端使用
1. 添加依赖,引入jedis依赖:
<dependency><groupid>redis.clients</groupid><artifactid>jedis</artifactid><version>3.6.0</version></dependency>
2.创建一个Jedis对象:
Jedis jedis = new Jedis("localhost");
3.向HyperLogLog数据结构添加元素:
jedis.pfadd("hll:unique_ips", "127.0.0.1");
4.获取计算集合中元素数量的近似值:
Long count = jedis.pfcount("hll:unique_ips"); System.out.println(count);
5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE
命令来合并HyperLogLog数据结构:
jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");
5.Redission使用依赖
1.创建RedissonClient对象
Config config = new Config(); config.useSingleServer().setAddress("redis://localhost:6379"); RedissonClient redisson = Redisson.create(config);
2.创建RHyperLogLog对象
RHyperLogLog<string> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");</string>
3.添加元素
uniqueIps.add("127.0.0.1");
4..获取近似数量
long approximateCount = uniqueIps.count(); System.out.println(approximateCount);
5.合并多个HyperLogLog对象
RHyperLogLog<string> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1"); RHyperLogLog<string> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2"); uniqueIps.mergeWith(uniqueIps1, uniqueIps2);</string></string>
6.HyperLogLog 提供了哪些特性和方法
特性:
- 精确度低,但占用内存极少。
- 支持插入新元素,同时不会重复计数。
- 提供指令来优化内存使用和计数准确性。例如PFADD、PFCOUNT、PFMERGE等指令。
- 能够估计一个数据集中的不同元素数量,即集合的基数(cardinality)。
- 支持对多个HyperLogLog对象进行合并操作,以获得这些集合的总基数的近似值。
HyperLogLog常用的方法:
- PFADD key element [element ...]:添加一个或多个元素到HyperLogLog结构中。
- PFCOUNT key [key ...]:获取一个或多个HyperLogLog结构的基数估计值。
- PFMERGE destkey sourcekey [sourcekey ...]:合并一个或多个HyperLogLog结构到一个目标结构中。
- PFSELFTEST [numtests]: 测试HyperLogLog估值性能和准确性(仅限Redis4.0+版本)
需要注意的是,HyperLogLog虽然可以节省大量内存,但仍然是一种估计算法,误差范围并不是完全精确的,并且具有一定的计算成本。在使用时需要根据实际应用情况选择是否使用HyperLogLog或其他数据结构来估计元素数量。
7.使用场景总结:
Redis使用HyperLogLog的主要作用是在大数据流(view,IP,城市)的情况下进行去重计数。
具体来说,以下是Redis HyperLogLog用于去重计数的一些场景:
- 统计页面访问量 - 在Web应用程序中, HyperLogLog可以使用为每个页面计算多少次独特的访问者。通过跨越多个不同的时间段使用HyperLogLog,可以计算出这个页面的所有时间的平均访问数。
- 统计用户数 - 在分析大数据集合的用户数量方面,HyperLogLog也非常有用。作为一种基于概率的数据结构,尤其是在处理独特的用户ID这样的数据集合时。在此情况下,HyperLogLog首先执行散列,此后仅在内部存储有限的散列值,同时还能够推断大小。
- 统计广告点击量 - 对于网站或应用程序的广告分析,HyperLogLog可以用于捕获有效点击数量,即非重复或唯一点击数量。
总之,对于需要进行去重计数的大数据流的情况下,Redis的HyperLogLog是一种简单而强大的工具。
理论要掌握,实操不能落!以上关于《Redis中 HyperLogLog数据类型使用小结》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- 一文带你掌握掌握Golang结构体与方法

- 下一篇
- 利用ChatGPT编写一个Golang图像压缩函数
-
- 数据库 · Redis | 3天前 |
- Redis性能优化配置指南
- 182浏览 收藏
-
- 数据库 · Redis | 4天前 |
- RedisHyperLogLog大数据统计技巧
- 305浏览 收藏
-
- 数据库 · Redis | 5天前 |
- Redis安全配置参数设置详解
- 252浏览 收藏
-
- 数据库 · Redis | 5天前 |
- 不同环境Redis安全配置对比与调整方法
- 374浏览 收藏
-
- 数据库 · Redis | 6天前 |
- RedisList队列优化方法分享
- 311浏览 收藏
-
- 数据库 · Redis | 6天前 |
- Redis主从复制故障排查指南
- 178浏览 收藏
-
- 数据库 · Redis | 1星期前 |
- Redis原子操作详解与实战应用
- 469浏览 收藏
-
- 数据库 · Redis | 1星期前 |
- Redis崩溃后重启与数据恢复方法
- 153浏览 收藏
-
- 数据库 · Redis | 1星期前 |
- Redis安全配置:强密码与访问控制设置教程
- 440浏览 收藏
-
- 数据库 · Redis | 1星期前 |
- Redis单节点迁移集群的实用方法
- 376浏览 收藏
-
- 数据库 · Redis | 1星期前 |
- 多线程Redis优化技巧分享
- 499浏览 收藏
-
- 数据库 · Redis | 2星期前 |
- RedisHyperLogLog高效统计方法
- 419浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 514次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Mermaid流程图
- SEO AI Mermaid 流程图工具:基于 Mermaid 语法,AI 辅助,自然语言生成流程图,提升可视化创作效率,适用于开发者、产品经理、教育工作者。
- 592次使用
-
- 搜获客【笔记生成器】
- 搜获客笔记生成器,国内首个聚焦小红书医美垂类的AI文案工具。1500万爆款文案库,行业专属算法,助您高效创作合规、引流的医美笔记,提升运营效率,引爆小红书流量!
- 595次使用
-
- iTerms
- iTerms是一款专业的一站式法律AI工作台,提供AI合同审查、AI合同起草及AI法律问答服务。通过智能问答、深度思考与联网检索,助您高效检索法律法规与司法判例,告别传统模板,实现合同一键起草与在线编辑,大幅提升法律事务处理效率。
- 616次使用
-
- TokenPony
- TokenPony是讯盟科技旗下的AI大模型聚合API平台。通过统一接口接入DeepSeek、Kimi、Qwen等主流模型,支持1024K超长上下文,实现零配置、免部署、极速响应与高性价比的AI应用开发,助力专业用户轻松构建智能服务。
- 680次使用
-
- 迅捷AIPPT
- 迅捷AIPPT是一款高效AI智能PPT生成软件,一键智能生成精美演示文稿。内置海量专业模板、多样风格,支持自定义大纲,助您轻松制作高质量PPT,大幅节省时间。
- 579次使用
-
- GO将mysql 中 decimal 数据类型映射到 protobuf的操作方法
- 2022-12-22 230浏览
-
- go语言中基本数据类型及应用快速了解
- 2023-01-28 136浏览
-
- GO语言入门学习之基本数据类型字符串
- 2022-12-25 212浏览
-
- Go基础教程系列之数据类型详细说明
- 2023-01-01 267浏览
-
- Go语言特点及基本数据类型使用详解
- 2022-12-30 281浏览