当前位置:首页 > 文章列表 > 文章 > python教程 > Python用quantile计算分位数方法

Python用quantile计算分位数方法

2025-08-23 14:00:49 0浏览 收藏

从现在开始,努力学习吧!本文《Python如何用quantile计算分位数?》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!

在Python中计算分位数首选Pandas的quantile()方法。1. 它可直接用于Series或DataFrame,支持单个或多个分位数计算,如data.quantile(0.5)求中位数;2. 支持多种插值方式(linear、lower、higher、nearest、midpoint),影响分位数落在两数据点间时的结果,例如linear进行线性插值而lower取较低值;3. 处理缺失值时默认skipna=True,自动忽略NaN,但需根据缺失机制判断是否需填充或删除以避免偏差。该方法在数据分析中能有效揭示数据分布、识别异常值并支持分层洞察,是比均值更稳健的统计指标,完整应用需结合数据特性选择插值策略并妥善处理缺失值。

Python怎样实现数据分位数计算?quantile方法

在Python中,想要计算数据分位数,Pandas库的quantile()方法无疑是我的首选。它不仅功能强大,能够灵活地应用于Series和DataFrame,还提供了多种插值方式来处理不同场景下的精度需求。相比于NumPy,Pandas在处理结构化数据和进行数据分析时,通常会带来更流畅、更符合直觉的体验。

解决方案

使用Pandas的quantile()方法计算分位数非常直观。无论是针对单个Series(例如DataFrame中的某一列)还是整个DataFrame,它都能轻松应对。

基本用法:

假设我们有一个Pandas Series,想要计算它的中位数(即50%分位数):

import pandas as pd
import numpy as np

data = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
median_value = data.quantile(0.5)
print(f"数据系列的中位数(50%分位数)是: {median_value}")

# 也可以计算25%分位数和75%分位数
q25 = data.quantile(0.25)
q75 = data.quantile(0.75)
print(f"25%分位数是: {q25}")
print(f"75%分位数是: {q75}")

计算多个分位数:

如果你需要一次性计算多个分位数,可以传入一个分位数列表:

quantiles_list = [0.1, 0.25, 0.5, 0.75, 0.9]
multiple_quantiles = data.quantile(quantiles_list)
print("\n多个分位数:")
print(multiple_quantiles)

应用于DataFrame:

当应用于DataFrame时,quantile()默认会按列(或行,取决于axis参数)计算分位数。

df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [100, 200, 300, 400, 500, 600, 700, 800, 900, 1000],
    'C': [11, 22, 33, 44, 55, 66, 77, 88, 99, 110]
})

df_median = df.quantile(0.5) # 计算每列的中位数
print("\nDataFrame每列的中位数:")
print(df_median)

df_multiple_quantiles = df.quantile([0.25, 0.75]) # 计算每列的25%和75%分位数
print("\nDataFrame每列的25%和75%分位数:")
print(df_multiple_quantiles)

插值方法(interpolation参数):

quantile()方法提供了一个interpolation参数,用于处理分位数落在两个数据点之间的情况。这是我个人觉得Pandas比NumPy更灵活的地方之一。常见的选项包括:

  • 'linear' (默认): 线性插值。
  • 'lower': 取较低的那个值。
  • 'higher': 取较高的那个值。
  • 'nearest': 取最近的那个值。
  • 'midpoint': 取两个值的中点。
data_odd = pd.Series([1, 2, 3, 4, 5]) # 奇数个元素
# 25%分位数落在1和2之间
print(f"\n奇数个元素系列,25%分位数:")
print(f"  线性插值 (linear): {data_odd.quantile(0.25, interpolation='linear')}")
print(f"  取较低值 (lower): {data_odd.quantile(0.25, interpolation='lower')}")
print(f"  取较高值 (higher): {data_odd.quantile(0.25, interpolation='higher')}")
print(f"  取最近值 (nearest): {data_odd.quantile(0.25, interpolation='nearest')}")
print(f"  取中点 (midpoint): {data_odd.quantile(0.25, interpolation='midpoint')}")

分位数在数据分析中扮演着怎样的角色?

分位数远不止是中位数那么简单,它在数据分析中扮演着至关重要的角色,尤其当数据分布偏斜或存在异常值时,它的价值就凸显出来了。在我看来,它更像是一把尺子,能帮我们量度数据的“形状”和“密度”。

想象一下,如果你只看平均值,可能会被少数极端值严重误导。比如,一个公司的平均薪资很高,但可能只是因为几个高管的薪水太高,大部分员工的薪资其实很低。这时候,中位数(50%分位数)就能更真实地反映典型员工的收入水平。

更进一步,25%分位数和75%分位数(通常与中位数一起构成四分位数)可以帮助我们理解数据的集中程度和离散程度。它们围成的区间就是“四分位距”(IQR),是检测异常值的一个常用方法。任何数据点如果远超这个区间,就可能是潜在的异常值。

在业务场景中,分位数更是无处不在。比如,分析客户消费行为时,我们可以计算“前10%高价值客户”的消费分位数,这能帮助我们识别核心用户群体。在性能监控中,我们常看95%或99%分位数的延迟,而不是平均延迟,因为平均值可能掩盖了大部分用户体验到的卡顿。这就像是,你不能只看一个网站的平均加载时间,因为那可能意味着大部分时间很快,但有5%的用户每次访问都慢得要死,而这5%的用户体验才是你真正需要关注的。

它提供了一种“分层”的视角,让我们能够更好地理解数据的内部结构,而不是被单一的聚合指标所蒙蔽。

选择不同的插值方法对分位数计算结果有何影响?

选择不同的插值方法,对于分位数计算结果的影响,主要体现在当分位数点恰好落在两个数据点之间时。这在数据量不大或者数据本身是离散型时尤为明显。我个人觉得,理解这些细微差别,对于需要精确统计分析的场景至关重要,否则可能在无意中引入偏差。

让我们用一个简单的序列来直观感受一下:data = [1, 2, 3, 4, 5, 6],我们想计算25%分位数(即第1.5个数据点)。

  • 'linear' (线性插值): 这是Pandas的默认行为,也是最常用的。它会在两个相邻数据点之间进行线性计算。

    • 对于上面的序列,25%分位数会是 1 + 0.5 * (2 - 1) = 1.5
    • 何时使用: 当你认为数据是连续的,并且希望分位数结果能反映出这种连续性时。它提供了一个平滑的估计。
  • 'lower' (取较低值): 简单粗暴,直接取分位数位置前的数据点。

    • 对于上面的序列,25%分位数会是 1
    • 何时使用: 当你希望分位数结果总是数据集中存在的实际值,并且偏向于保守估计(例如,最低限度)。
  • 'higher' (取较高值):'lower'相反,取分位数位置后的数据点。

    • 对于上面的序列,25%分位数会是 2
    • 何时使用: 当你希望分位数结果总是数据集中存在的实际值,并且偏向于宽松估计(例如,最高限度)。
  • 'nearest' (取最近值): 找到距离分位数位置最近的数据点。如果距离相等,Pandas会选择偶数索引的那个。

    • 对于上面的序列,25%分位数是 2(因为1.5更接近2)。
    • 何时使用: 当数据是离散的,或者你希望结果是数据集中实际存在的值,并且希望是最接近的那个。
  • 'midpoint' (取中点): 如果分位数位置恰好在两个数据点之间,就取这两个数据点的平均值。

    • 对于上面的序列,25%分位数会是 (1 + 2) / 2 = 1.5
    • 何时使用: 当你希望结果是两个相邻实际值的平均,作为一种折衷方案。

总的来说,'linear'通常是合理的默认选择,因为它在统计学上提供了更平滑、更连续的估计。但如果你的数据是分类的、离散的,或者有特定的业务规则要求,那么选择'lower''higher''nearest'可能会更符合实际意义。理解这些差异,能帮助我们避免在关键分析中做出错误的假设。

处理包含缺失值的数据时,分位数计算需要注意哪些细节?

在实际数据分析中,缺失值(NaN)几乎是家常便饭。处理这些缺失值时,分位数计算确实有一些值得注意的细节,这直接关系到结果的准确性和可靠性。我个人习惯在进行任何统计计算前,先对缺失值有一个清晰的认识和处理策略。

Pandas的quantile()方法默认行为是相当友好的:它会自动跳过缺失值(即skipna=True)。这意味着在计算分位数时,NaN值不会被纳入排序和计数,只对有效数值进行计算。这在大多数情况下是合理的,因为它避免了NaN对分位数结果的干扰。

data_with_nan = pd.Series([10, 20, np.nan, 40, 50, 60, np.nan, 80, 90])
median_with_nan = data_with_nan.quantile(0.5)
print(f"包含缺失值的数据系列中位数(默认跳过NaN): {median_with_nan}")

这里,np.nan被忽略了,中位数是基于 [10, 20, 40, 50, 60, 80, 90] 这7个有效值计算的。

然而,仅仅依赖默认行为有时是不够的。我们需要问自己:这些缺失值代表什么?

  1. 随机缺失 (MCAR/MAR): 如果缺失是随机的,或者与观测数据有关(但与缺失本身无关),那么skipna=True通常是合适的。你可能只需要确保有效数据量足够大,足以代表整体。
  2. 非随机缺失 (MNAR): 如果缺失值本身就包含了某种信息(例如,用户没有填写某个字段是因为他们没有相关信息,这本身就是一种“数据”),那么简单地跳过它们可能会导致信息丢失和偏差。在这种情况下,你可能需要:
    • 填充缺失值: 使用fillna()方法,根据业务逻辑选择合适的填充策略(如均值、中位数、众数、前一个值、后一个值,或者一个特定的标记值如-1)。填充后再计算分位数。
    • 移除缺失值: 如果缺失值比例很小,或者你确定这些缺失的行/列对分析没有价值,可以使用dropna()直接移除。但这可能导致数据量减少,甚至引入选择偏差。
# 示例:填充缺失值后计算
data_filled = data_with_nan.fillna(data_with_nan.median()) # 用中位数填充
median_after_fill = data_filled.quantile(0.5)
print(f"用中位数填充NaN后的中位数: {median_after_fill}")

# 示例:不跳过NaN(这通常会导致NaN结果,除非NaN被视为一个有效值,这在统计中不常见)
# data_with_nan.quantile(0.5, skipna=False) # 这会返回NaN,因为NaN在序列中

一个常见的误区是,如果数据集中有很多NaN,而你又直接使用quantile(),结果可能看起来“正常”,但它实际上是基于一个被“过滤”掉的子集。所以,在计算分位数之前,花点时间理解数据的质量和缺失值的含义,比直接套用方法要重要得多。数据清理和预处理,在我看来,永远是数据分析中最耗时但也最关键的一步。

理论要掌握,实操不能落!以上关于《Python用quantile计算分位数方法》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

yt-dlp添加章节和元数据方法yt-dlp添加章节和元数据方法
上一篇
yt-dlp添加章节和元数据方法
波点音乐设铃声教程:手机设置步骤详解
下一篇
波点音乐设铃声教程:手机设置步骤详解
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    238次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    231次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    229次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    234次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    258次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码