当前位置：首页 > 文章列表 > 文章 > python教程 > Python实现用户行为漏斗分析方法

Python实现用户行为漏斗分析方法

2025-07-04 09:37:57 0浏览收藏

解决方案

要构建一个用户行为漏斗模型，我们通常需要以下步骤，并辅以Python代码实现：

数据准备： 确保你拥有包含用户ID、事件名称和事件时间戳的原始事件数据。这是所有分析的基础。
定义漏斗阶段： 根据业务目标，明确用户从开始到完成某个目标所需要经历的关键步骤。例如，对于电商网站，可能是“浏览商品” -> “加入购物车” -> “进入结算页” -> “完成支付”。
筛选与标记事件： 从原始数据中筛选出与漏斗阶段相关的事件，并为每个事件打上对应的阶段标签。
用户路径构建： 针对每个用户，按照时间顺序排列其在漏斗阶段中的事件，并识别他们是否成功进入了下一个阶段。
计算转化率： 统计每个阶段的用户数量，并计算相邻阶段之间的转化率。
可视化： 使用图表（如条形图、漏斗图）直观展示每个阶段的用户数和转化率。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 模拟用户事件数据
# 实际工作中，这些数据可能来自数据库查询、日志文件等
data = {
    'user_id': [1, 1, 1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5],
    'event_time': pd.to_datetime([
        '2023-01-01 10:00:00', '2023-01-01 10:05:00', '2023-01-01 10:10:00', '2023-01-01 10:15:00',
        '2023-01-01 11:00:00', '2023-01-01 11:05:00', '2023-01-01 11:10:00',
        '2023-01-01 12:00:00', '2023-01-01 12:05:00',
        '2023-01-01 13:00:00', '2023-01-01 13:05:00', '2023-01-01 13:10:00', '2023-01-01 13:15:00',
        '2023-01-01 14:00:00', '2023-01-01 14:05:00', '2023-01-01 14:10:00'
    ]),
    'event_name': [
        'view_product', 'add_to_cart', 'checkout', 'purchase_complete',
        'view_product', 'add_to_cart', 'checkout',
        'view_product', 'add_to_cart',
        'view_product', 'add_to_cart', 'checkout', 'purchase_complete',
        'view_product', 'add_to_cart', 'checkout'
    ]
}
df_events = pd.DataFrame(data)

# 定义漏斗阶段及其顺序
funnel_stages = [
    'view_product',
    'add_to_cart',
    'checkout',
    'purchase_complete'
]

# 初始化一个DataFrame来存储每个用户在每个阶段的首次完成时间
user_funnel_progress = pd.DataFrame({'user_id': df_events['user_id'].unique()})

# 遍历漏斗阶段，找到每个用户首次完成该阶段的时间
for stage in funnel_stages:
    # 筛选出当前阶段的事件
    stage_events = df_events[df_events['event_name'] == stage].copy()
    # 找到每个用户首次完成该阶段的时间
    first_occurrence = stage_events.groupby('user_id')['event_time'].min().reset_index()
    first_occurrence.rename(columns={'event_time': f'{stage}_time'}, inplace=True)

    # 将结果合并到user_funnel_progress中
    user_funnel_progress = pd.merge(user_funnel_progress, first_occurrence, on='user_id', how='left')

# 确保用户按照漏斗阶段的顺序进行
# 如果用户跳过了某个阶段，或者阶段发生顺序错误，则认为该用户未通过该阶段
# 这里我们检查每个阶段的时间是否晚于或等于前一个阶段的时间
for i in range(1, len(funnel_stages)):
    prev_stage_time_col = f'{funnel_stages[i-1]}_time'
    curr_stage_time_col = f'{funnel_stages[i]}_time'

    # 如果当前阶段的时间为空，或者早于前一个阶段的时间，则将当前阶段时间设为NaN
    user_funnel_progress.loc[
        (user_funnel_progress[curr_stage_time_col].isnull()) | 
        (user_funnel_progress[curr_stage_time_col] < user_funnel_progress[prev_stage_time_col]), 
        curr_stage_time_col
    ] = pd.NaT # pd.NaT for datetime NaNs

# 计算每个阶段的用户数
stage_counts = {}
for i, stage in enumerate(funnel_stages):
    # 对于第一个阶段，计算所有有该事件的用户数
    if i == 0:
        stage_counts[stage] = user_funnel_progress[f'{stage}_time'].notna().sum()
    else:
        # 对于后续阶段，计算那些成功通过前一阶段且通过当前阶段的用户数
        prev_stage_col = f'{funnel_stages[i-1]}_time'
        curr_stage_col = f'{funnel_stages[i]}_time'
        stage_counts[stage] = user_funnel_progress[
            user_funnel_progress[prev_stage_col].notna() & 
            user_funnel_progress[curr_stage_col].notna()
        ].shape[0]

# 将结果转换为DataFrame以便计算和可视化
funnel_df = pd.DataFrame(list(stage_counts.items()), columns=['Stage', 'Users'])
funnel_df['Users_Prev_Stage'] = funnel_df['Users'].shift(1).fillna(funnel_df['Users'].iloc[0])
funnel_df['Conversion_Rate'] = (funnel_df['Users'] / funnel_df['Users_Prev_Stage'] * 100).round(2)
funnel_df['Cumulative_Conversion'] = (funnel_df['Users'] / funnel_df['Users'].iloc[0] * 100).round(2)

print("漏斗分析结果:")
print(funnel_df)

# 可视化漏斗
plt.figure(figsize=(10, 6))
sns.barplot(x='Stage', y='Users', data=funnel_df, palette='viridis')
plt.title('用户行为漏斗模型')
plt.xlabel('漏斗阶段')
plt.ylabel('用户数')

# 在柱状图上添加转化率标签
for index, row in funnel_df.iterrows():
    plt.text(index, row['Users'], f"{row['Users']} ({row['Cumulative_Conversion']}%)", color='black', ha="center", va='bottom')
    if index > 0:
        plt.text(index, row['Users'] / 2, f"{row['Conversion_Rate']}%", color='red', ha="center", va='center', weight='bold') # 阶段间转化率
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

为什么漏斗模型是用户行为分析的基石？

说实话，漏斗模型之所以成为用户行为分析的基石，在我看来，它最大的价值在于提供了一个“结构化透视镜”。我们每天面对海量的用户数据，如果只是看单个指标，比如“有多少人访问了页面”，或者“有多少人完成了购买”，这些数字固然重要，但它们无法告诉你用户在完成这个目标的过程中，到底经历了什么，又在哪里卡住了。

漏斗模型就像是把用户的整个旅程拆解成一个个清晰的、逻辑关联的步骤。通过这种分解，我们能直观地看到每个阶段的用户留存情况和转化效率。一旦某个环节的转化率骤降，那几乎就是产品或运营出了问题的明确信号。它把复杂的用户行为路径，简化成了一条可量化、可追踪的“管道”，帮助我们迅速定位问题所在，而不是漫无目的地猜测。我个人觉得，它不仅仅是一个分析工具，更是一种思维框架，强迫你把用户体验视为一个连续的流程，而不是孤立的事件。

在Python中构建漏斗模型，数据清洗与预处理有哪些坑？

构建漏斗模型，尤其是用Python处理真实数据时，数据清洗和预处理才是真正的“硬骨头”，我甚至会说，80%的时间都花在了这里。那些看起来光鲜亮丽的漏斗图背后，往往隐藏着无数的数据陷阱。

一个常见的坑是事件定义的不一致性。比如，有时候“添加到购物车”事件可能被记录为add_to_cart，但某些客户端又可能记录为item_added_to_basket。如果你不仔细统一这些事件名称，你的漏斗数据就会严重失真，导致某些阶段的用户数被低估。

其次是时间戳的准确性和时区问题。用户行为是时间序列数据，事件的先后顺序至关重要。如果时间戳有误差，或者不同系统记录的时间戳使用了不同的时区（比如一部分是UTC，一部分是本地时间），那么用户路径的逻辑就会完全被打乱。我曾经遇到过因为时区问题导致用户“先购买后加入购物车”的诡异数据，这直接让漏斗分析变得毫无意义。

再来就是用户识别的唯一性。确保user_id在整个用户旅程中是唯一的且持续的，这听起来简单，但实际操作中可能因为匿名用户、多设备登录、或用户ID重置等原因变得复杂。如果你无法准确识别同一个用户，那么你的漏斗就会把不同用户的行为混淆在一起。

最后，重复事件的处理也挺烦人。一个用户可能多次点击“加入购物车”，或者刷新页面导致“浏览商品”事件被多次记录。你需要决定是计算首次事件，还是最后一次事件，亦或是所有事件。不同的处理方式会影响你的漏斗阶段人数，进而影响转化率的计算。这些细节处理不当，可能让你的分析结果南辕北辙。

如何解读漏斗分析结果并制定优化策略？

解读漏斗分析结果，可不是简单地看看哪个阶段掉人最多。真正的价值在于，你要从数据中“读”出用户的心声，然后转化为可执行的优化方案。

首先，当然是识别最大的流失点。那些转化率骤降的阶段，就是你最需要关注的“出血点”。但仅仅知道“哪里掉人多”是不够的，你还得去探究“为什么掉人多”。这时候，你需要结合定性分析。比如，如果“加入购物车”到“结算页”的转化率很低，你可能需要回溯用户会话录像、进行用户访谈、查看热力图，看看用户在这个阶段遇到了什么障碍——是运费太高？支付方式不灵活？还是表单太复杂？

其次，进行用户分群分析能带来很多惊喜。把漏斗数据按用户来源（比如搜索引擎、社交媒体、广告）、设备类型（移动、桌面）、新老用户等维度进行细分，你可能会发现不同群体的行为模式差异巨大。例如，移动端用户在“结算页”的流失率可能远高于桌面端，这可能暗示你的移动端结算流程体验不佳。这种细分能帮助你制定更精准的优化策略。

最后，制定并验证优化策略是一个迭代过程。基于漏斗分析和定性研究得出的洞察，你可以提出具体的优化假设，比如“简化结算页表单可以提升转化率”。然后，通过A/B测试等方式来验证这些假设。如果测试结果积极，就推广实施；如果效果不明显，就继续分析，调整策略。记住，漏斗分析不是一次性的任务，它是一个持续的监控和优化循环。我个人觉得，最怕的就是看到漏斗数据后，没有后续的行动和验证，那这些分析就真的只是停留在数字层面了。

今天关于《Python实现用户行为漏斗分析方法》的内容就介绍到这里了，是不是学起来一目了然！想要了解更多关于的内容请关注golang学习网公众号！