当前位置：首页 > 文章列表 > 文章 > python教程 > Python用户留存分析：次日7日留存率代码

Python用户留存分析：次日7日留存率代码

2026-04-12 09:19:28 0浏览收藏

本文深入解析了Python中用户留存分析的核心要点，特别强调次日与7日留存率的准确计算方法——关键在于严格区分“首次登录用户”而非所有登录用户，避免老用户重复登录导致的分母污染；通过pandas精准提取每位用户的首次登录日期、统一日期格式为date类型、用整数天差判断活跃周期，有效规避时间精度误差和逻辑偏差，为数据分析师提供可直接复用的稳健代码实践指南。

Python如何做留存分析_计算用户次日留存与7日留存率全量Pandas代码

用 `pandas.DataFrame.groupby` 按用户首次登录日期分组再统计留存

次日留存率不是“某天登录的人里第二天还来的比例”，而是“某天**首次**登录的用户中，第二天又活跃的比例”。漏掉“首次”这个限定，结果会严重高估——老用户反复登录会污染分母。

实操建议：

先用 df.sort_values(['user_id', 'event_time']) 确保每个用户行为按时间排序
用 df.groupby('user_id')['event_time'].min() 提取每个用户的 first_login_date
把 first_login_date 合并回原表，作为后续分组依据
别直接对原始登录日分组——那算的是“当日登录用户留存”，不是“新用户留存”

计算次日/7日是否活跃：用 `pd.to_datetime` 对齐日期再做差值比较

直接用字符串比日期、或没统一时区/格式就减时间戳，容易因精度丢失（比如 '2024-01-01 23:59:59' 和 '2024-01-02 00:00:01' 被判为跨2天）导致漏计。

实操建议：

把 event_time 和 first_login_date 都转成 pd.to_datetime(...).dt.date（只留年月日）
用 (active_date - first_login_date).days 得整数天数，避免 Timedelta 单位混淆
次日留存对应 days == 1，7日留存对应 days >= 1 and days （注意是“7日内至少活跃一次”，不是“第7天恰好活跃”）

聚合时别用 `count()` 直接除——要防分母为0和重复用户

一个新用户在次日多次打开 App，groupby().count() 会把这个人算多次，但留存只看“是否来过”，不是“来了几次”。更糟的是，如果某天没新用户，分母为0，div() 会产出 inf 或 NaN，后续画图或导出易崩。

实操建议：

对每个 first_login_date 组，用 nunique('user_id') 算分母（新用户数）
分子用 df[df['days']==1]['user_id'].nunique()（次日去重用户数）
最后用 .fillna(0) 替换空组的 NaN，再用 .replace([np.inf, -np.inf], 0) 清理异常值

性能卡在大表上？避免 `apply` 和循环，改用 `merge` + `agg`

有人写 for date in dates: df[df['first']==date].apply(...)，百万级用户下跑几小时。Pandas 的向量化操作根本不需要逐天遍历。

实操建议：

把新用户表（含 user_id, first_login_date）和全量行为表（含 user_id, active_date）用 merge 连接
加一列 days = (active_date - first_login_date).dt.days
用 groupby('first_login_date').agg({'user_id': ['nunique', lambda x: x[x.map(lambda u: (df[df.user_id==u].days>=1)&(df[df.user_id==u].days 是错的——别这么写；正确做法是先标记每条记录是否满足次日/7日条件，再聚合
更稳的写法：df['is_d1'] = (df.days == 1); df['is_d7'] = (df.days.between(1, 7)); df.groupby('first_login_date').agg(d1_retain=('is_d1', 'mean'), d7_retain=('is_d7', 'mean'))

保留住“首次登录日”这个锚点，其他全是围绕它展开的布尔标记和分组聚合。最常被跳过的一步，就是没验证 first_login_date 是否真为每人最小时间——只要有一例时间错乱，整张留存表就不可信。

好了，本文到此结束，带大家了解了《Python用户留存分析：次日7日留存率代码》，希望本文对你有所帮助！关注golang学习网公众号，给大家分享更多文章知识！

Java读取文件字节方法详解

上一篇: Java读取文件字节方法详解

下一篇: Notepad++运行HTML方法与打开教程

查看更多

最新文章

文章 · python教程 | 4小时前 |

Python集合操作技巧与应用方法

352浏览收藏
文章 · python教程 | 4小时前 |

阿尔比恩异教徒要塞位置及探索指南

471浏览收藏
文章 · python教程 | 4小时前 |

Python正则表达式re模块详解

356浏览收藏
文章 · python教程 | 5小时前 |

Python如何判断是否为子类？issubclass用法详解

256浏览收藏
文章 · python教程 | 5小时前 |

Python自动化下载压缩包教程

470浏览收藏
文章 · python教程 | 5小时前 |

Pandasapply(axis=1)为何效率低？

369浏览收藏
文章 · python教程 | 5小时前 |

Python项目结构原理与实战解析

225浏览收藏
文章 · python教程 | 6小时前 |

Python构建堆的几种方法

230浏览收藏
文章 · python教程 | 6小时前 |

Python快速反转字符串或列表的方法

162浏览收藏
文章 · python教程 | 6小时前 |

PythonWSGI是什么？详解Web网关接口

478浏览收藏
文章 · python教程 | 7小时前 |

Python机器学习：sklearn算法实战教程

350浏览收藏
文章 · python教程 | 7小时前 |

Python多线程怎么用？新手教程详解

214浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

5871次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

6305次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

6112次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

8081次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

6509次使用