Python用quantile计算分位数方法
从现在开始,努力学习吧!本文《Python如何用quantile计算分位数?》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
在Python中计算分位数首选Pandas的quantile()方法。1. 它可直接用于Series或DataFrame,支持单个或多个分位数计算,如data.quantile(0.5)求中位数;2. 支持多种插值方式(linear、lower、higher、nearest、midpoint),影响分位数落在两数据点间时的结果,例如linear进行线性插值而lower取较低值;3. 处理缺失值时默认skipna=True,自动忽略NaN,但需根据缺失机制判断是否需填充或删除以避免偏差。该方法在数据分析中能有效揭示数据分布、识别异常值并支持分层洞察,是比均值更稳健的统计指标,完整应用需结合数据特性选择插值策略并妥善处理缺失值。
在Python中,想要计算数据分位数,Pandas库的quantile()
方法无疑是我的首选。它不仅功能强大,能够灵活地应用于Series和DataFrame,还提供了多种插值方式来处理不同场景下的精度需求。相比于NumPy,Pandas在处理结构化数据和进行数据分析时,通常会带来更流畅、更符合直觉的体验。
解决方案
使用Pandas的quantile()
方法计算分位数非常直观。无论是针对单个Series(例如DataFrame中的某一列)还是整个DataFrame,它都能轻松应对。
基本用法:
假设我们有一个Pandas Series,想要计算它的中位数(即50%分位数):
import pandas as pd import numpy as np data = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100]) median_value = data.quantile(0.5) print(f"数据系列的中位数(50%分位数)是: {median_value}") # 也可以计算25%分位数和75%分位数 q25 = data.quantile(0.25) q75 = data.quantile(0.75) print(f"25%分位数是: {q25}") print(f"75%分位数是: {q75}")
计算多个分位数:
如果你需要一次性计算多个分位数,可以传入一个分位数列表:
quantiles_list = [0.1, 0.25, 0.5, 0.75, 0.9] multiple_quantiles = data.quantile(quantiles_list) print("\n多个分位数:") print(multiple_quantiles)
应用于DataFrame:
当应用于DataFrame时,quantile()
默认会按列(或行,取决于axis
参数)计算分位数。
df = pd.DataFrame({ 'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'B': [100, 200, 300, 400, 500, 600, 700, 800, 900, 1000], 'C': [11, 22, 33, 44, 55, 66, 77, 88, 99, 110] }) df_median = df.quantile(0.5) # 计算每列的中位数 print("\nDataFrame每列的中位数:") print(df_median) df_multiple_quantiles = df.quantile([0.25, 0.75]) # 计算每列的25%和75%分位数 print("\nDataFrame每列的25%和75%分位数:") print(df_multiple_quantiles)
插值方法(interpolation
参数):
quantile()
方法提供了一个interpolation
参数,用于处理分位数落在两个数据点之间的情况。这是我个人觉得Pandas比NumPy更灵活的地方之一。常见的选项包括:
'linear'
(默认): 线性插值。'lower'
: 取较低的那个值。'higher'
: 取较高的那个值。'nearest'
: 取最近的那个值。'midpoint'
: 取两个值的中点。
data_odd = pd.Series([1, 2, 3, 4, 5]) # 奇数个元素 # 25%分位数落在1和2之间 print(f"\n奇数个元素系列,25%分位数:") print(f" 线性插值 (linear): {data_odd.quantile(0.25, interpolation='linear')}") print(f" 取较低值 (lower): {data_odd.quantile(0.25, interpolation='lower')}") print(f" 取较高值 (higher): {data_odd.quantile(0.25, interpolation='higher')}") print(f" 取最近值 (nearest): {data_odd.quantile(0.25, interpolation='nearest')}") print(f" 取中点 (midpoint): {data_odd.quantile(0.25, interpolation='midpoint')}")
分位数在数据分析中扮演着怎样的角色?
分位数远不止是中位数那么简单,它在数据分析中扮演着至关重要的角色,尤其当数据分布偏斜或存在异常值时,它的价值就凸显出来了。在我看来,它更像是一把尺子,能帮我们量度数据的“形状”和“密度”。
想象一下,如果你只看平均值,可能会被少数极端值严重误导。比如,一个公司的平均薪资很高,但可能只是因为几个高管的薪水太高,大部分员工的薪资其实很低。这时候,中位数(50%分位数)就能更真实地反映典型员工的收入水平。
更进一步,25%分位数和75%分位数(通常与中位数一起构成四分位数)可以帮助我们理解数据的集中程度和离散程度。它们围成的区间就是“四分位距”(IQR),是检测异常值的一个常用方法。任何数据点如果远超这个区间,就可能是潜在的异常值。
在业务场景中,分位数更是无处不在。比如,分析客户消费行为时,我们可以计算“前10%高价值客户”的消费分位数,这能帮助我们识别核心用户群体。在性能监控中,我们常看95%或99%分位数的延迟,而不是平均延迟,因为平均值可能掩盖了大部分用户体验到的卡顿。这就像是,你不能只看一个网站的平均加载时间,因为那可能意味着大部分时间很快,但有5%的用户每次访问都慢得要死,而这5%的用户体验才是你真正需要关注的。
它提供了一种“分层”的视角,让我们能够更好地理解数据的内部结构,而不是被单一的聚合指标所蒙蔽。
选择不同的插值方法对分位数计算结果有何影响?
选择不同的插值方法,对于分位数计算结果的影响,主要体现在当分位数点恰好落在两个数据点之间时。这在数据量不大或者数据本身是离散型时尤为明显。我个人觉得,理解这些细微差别,对于需要精确统计分析的场景至关重要,否则可能在无意中引入偏差。
让我们用一个简单的序列来直观感受一下:data = [1, 2, 3, 4, 5, 6]
,我们想计算25%分位数(即第1.5个数据点)。
'linear'
(线性插值): 这是Pandas的默认行为,也是最常用的。它会在两个相邻数据点之间进行线性计算。- 对于上面的序列,25%分位数会是
1 + 0.5 * (2 - 1) = 1.5
。 - 何时使用: 当你认为数据是连续的,并且希望分位数结果能反映出这种连续性时。它提供了一个平滑的估计。
- 对于上面的序列,25%分位数会是
'lower'
(取较低值): 简单粗暴,直接取分位数位置前的数据点。- 对于上面的序列,25%分位数会是
1
。 - 何时使用: 当你希望分位数结果总是数据集中存在的实际值,并且偏向于保守估计(例如,最低限度)。
- 对于上面的序列,25%分位数会是
'higher'
(取较高值): 与'lower'
相反,取分位数位置后的数据点。- 对于上面的序列,25%分位数会是
2
。 - 何时使用: 当你希望分位数结果总是数据集中存在的实际值,并且偏向于宽松估计(例如,最高限度)。
- 对于上面的序列,25%分位数会是
'nearest'
(取最近值): 找到距离分位数位置最近的数据点。如果距离相等,Pandas会选择偶数索引的那个。- 对于上面的序列,25%分位数是
2
(因为1.5更接近2)。 - 何时使用: 当数据是离散的,或者你希望结果是数据集中实际存在的值,并且希望是最接近的那个。
- 对于上面的序列,25%分位数是
'midpoint'
(取中点): 如果分位数位置恰好在两个数据点之间,就取这两个数据点的平均值。- 对于上面的序列,25%分位数会是
(1 + 2) / 2 = 1.5
。 - 何时使用: 当你希望结果是两个相邻实际值的平均,作为一种折衷方案。
- 对于上面的序列,25%分位数会是
总的来说,'linear'
通常是合理的默认选择,因为它在统计学上提供了更平滑、更连续的估计。但如果你的数据是分类的、离散的,或者有特定的业务规则要求,那么选择'lower'
、'higher'
或'nearest'
可能会更符合实际意义。理解这些差异,能帮助我们避免在关键分析中做出错误的假设。
处理包含缺失值的数据时,分位数计算需要注意哪些细节?
在实际数据分析中,缺失值(NaN)几乎是家常便饭。处理这些缺失值时,分位数计算确实有一些值得注意的细节,这直接关系到结果的准确性和可靠性。我个人习惯在进行任何统计计算前,先对缺失值有一个清晰的认识和处理策略。
Pandas的quantile()
方法默认行为是相当友好的:它会自动跳过缺失值(即skipna=True
)。这意味着在计算分位数时,NaN值不会被纳入排序和计数,只对有效数值进行计算。这在大多数情况下是合理的,因为它避免了NaN对分位数结果的干扰。
data_with_nan = pd.Series([10, 20, np.nan, 40, 50, 60, np.nan, 80, 90]) median_with_nan = data_with_nan.quantile(0.5) print(f"包含缺失值的数据系列中位数(默认跳过NaN): {median_with_nan}")
这里,np.nan
被忽略了,中位数是基于 [10, 20, 40, 50, 60, 80, 90]
这7个有效值计算的。
然而,仅仅依赖默认行为有时是不够的。我们需要问自己:这些缺失值代表什么?
- 随机缺失 (MCAR/MAR): 如果缺失是随机的,或者与观测数据有关(但与缺失本身无关),那么
skipna=True
通常是合适的。你可能只需要确保有效数据量足够大,足以代表整体。 - 非随机缺失 (MNAR): 如果缺失值本身就包含了某种信息(例如,用户没有填写某个字段是因为他们没有相关信息,这本身就是一种“数据”),那么简单地跳过它们可能会导致信息丢失和偏差。在这种情况下,你可能需要:
- 填充缺失值: 使用
fillna()
方法,根据业务逻辑选择合适的填充策略(如均值、中位数、众数、前一个值、后一个值,或者一个特定的标记值如-1)。填充后再计算分位数。 - 移除缺失值: 如果缺失值比例很小,或者你确定这些缺失的行/列对分析没有价值,可以使用
dropna()
直接移除。但这可能导致数据量减少,甚至引入选择偏差。
- 填充缺失值: 使用
# 示例:填充缺失值后计算 data_filled = data_with_nan.fillna(data_with_nan.median()) # 用中位数填充 median_after_fill = data_filled.quantile(0.5) print(f"用中位数填充NaN后的中位数: {median_after_fill}") # 示例:不跳过NaN(这通常会导致NaN结果,除非NaN被视为一个有效值,这在统计中不常见) # data_with_nan.quantile(0.5, skipna=False) # 这会返回NaN,因为NaN在序列中
一个常见的误区是,如果数据集中有很多NaN,而你又直接使用quantile()
,结果可能看起来“正常”,但它实际上是基于一个被“过滤”掉的子集。所以,在计算分位数之前,花点时间理解数据的质量和缺失值的含义,比直接套用方法要重要得多。数据清理和预处理,在我看来,永远是数据分析中最耗时但也最关键的一步。
理论要掌握,实操不能落!以上关于《Python用quantile计算分位数方法》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

- 上一篇
- yt-dlp添加章节和元数据方法

- 下一篇
- 波点音乐设铃声教程:手机设置步骤详解
-
- 文章 · python教程 | 27分钟前 |
- FastAPI入门教程:PythonAPI开发指南
- 155浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python遍历是什么?轻松掌握迭代方法
- 225浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python中True表示真值,用于条件判断
- 355浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- PyCharm切换中文界面,3步搞定教程
- 431浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python情感分析教程:TextBlob实战使用指南
- 478浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python中π表示圆周率常用数值
- 258浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- 正则表达式量词有哪些及用法详解
- 461浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- PyCharm中文界面设置教程详解
- 236浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- YOLOv8推理:图像尺寸不匹配解决方法
- 424浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python类方法中self参数解析与VSCode配置
- 113浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- PyCharm解释器配置方法及位置解析
- 425浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Import关键字使用详解
- 411浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 238次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 231次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 229次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 234次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 258次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览