当前位置：首页 > 文章列表 > 文章 > python教程 > Python用quantile计算分位数方法

Python用quantile计算分位数方法

2025-08-23 14:00:49 0浏览收藏

从现在开始，努力学习吧！本文《Python如何用quantile计算分位数？》主要讲解了等等相关知识点，我会在golang学习网中持续更新相关的系列文章，欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧，希望能帮到你！

在Python中计算分位数首选Pandas的quantile()方法。1. 它可直接用于Series或DataFrame，支持单个或多个分位数计算，如data.quantile(0.5)求中位数；2. 支持多种插值方式（linear、lower、higher、nearest、midpoint），影响分位数落在两数据点间时的结果，例如linear进行线性插值而lower取较低值；3. 处理缺失值时默认skipna=True，自动忽略NaN，但需根据缺失机制判断是否需填充或删除以避免偏差。该方法在数据分析中能有效揭示数据分布、识别异常值并支持分层洞察，是比均值更稳健的统计指标，完整应用需结合数据特性选择插值策略并妥善处理缺失值。

Python怎样实现数据分位数计算？quantile方法

在Python中，想要计算数据分位数，Pandas库的quantile()方法无疑是我的首选。它不仅功能强大，能够灵活地应用于Series和DataFrame，还提供了多种插值方式来处理不同场景下的精度需求。相比于NumPy，Pandas在处理结构化数据和进行数据分析时，通常会带来更流畅、更符合直觉的体验。

解决方案

使用Pandas的quantile()方法计算分位数非常直观。无论是针对单个Series（例如DataFrame中的某一列）还是整个DataFrame，它都能轻松应对。

基本用法：

假设我们有一个Pandas Series，想要计算它的中位数（即50%分位数）：

import pandas as pd
import numpy as np

data = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
median_value = data.quantile(0.5)
print(f"数据系列的中位数（50%分位数）是: {median_value}")

# 也可以计算25%分位数和75%分位数
q25 = data.quantile(0.25)
q75 = data.quantile(0.75)
print(f"25%分位数是: {q25}")
print(f"75%分位数是: {q75}")

计算多个分位数：

如果你需要一次性计算多个分位数，可以传入一个分位数列表：

quantiles_list = [0.1, 0.25, 0.5, 0.75, 0.9]
multiple_quantiles = data.quantile(quantiles_list)
print("\n多个分位数：")
print(multiple_quantiles)

应用于DataFrame：

当应用于DataFrame时，quantile()默认会按列（或行，取决于axis参数）计算分位数。

df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [100, 200, 300, 400, 500, 600, 700, 800, 900, 1000],
    'C': [11, 22, 33, 44, 55, 66, 77, 88, 99, 110]
})

df_median = df.quantile(0.5) # 计算每列的中位数
print("\nDataFrame每列的中位数：")
print(df_median)

df_multiple_quantiles = df.quantile([0.25, 0.75]) # 计算每列的25%和75%分位数
print("\nDataFrame每列的25%和75%分位数：")
print(df_multiple_quantiles)

插值方法（interpolation参数）：

quantile()方法提供了一个interpolation参数，用于处理分位数落在两个数据点之间的情况。这是我个人觉得Pandas比NumPy更灵活的地方之一。常见的选项包括：

'linear' (默认): 线性插值。
'lower': 取较低的那个值。
'higher': 取较高的那个值。
'nearest': 取最近的那个值。
'midpoint': 取两个值的中点。

data_odd = pd.Series([1, 2, 3, 4, 5]) # 奇数个元素
# 25%分位数落在1和2之间
print(f"\n奇数个元素系列，25%分位数：")
print(f"  线性插值 (linear): {data_odd.quantile(0.25, interpolation='linear')}")
print(f"  取较低值 (lower): {data_odd.quantile(0.25, interpolation='lower')}")
print(f"  取较高值 (higher): {data_odd.quantile(0.25, interpolation='higher')}")
print(f"  取最近值 (nearest): {data_odd.quantile(0.25, interpolation='nearest')}")
print(f"  取中点 (midpoint): {data_odd.quantile(0.25, interpolation='midpoint')}")

分位数在数据分析中扮演着怎样的角色？

分位数远不止是中位数那么简单，它在数据分析中扮演着至关重要的角色，尤其当数据分布偏斜或存在异常值时，它的价值就凸显出来了。在我看来，它更像是一把尺子，能帮我们量度数据的“形状”和“密度”。

想象一下，如果你只看平均值，可能会被少数极端值严重误导。比如，一个公司的平均薪资很高，但可能只是因为几个高管的薪水太高，大部分员工的薪资其实很低。这时候，中位数（50%分位数）就能更真实地反映典型员工的收入水平。

更进一步，25%分位数和75%分位数（通常与中位数一起构成四分位数）可以帮助我们理解数据的集中程度和离散程度。它们围成的区间就是“四分位距”（IQR），是检测异常值的一个常用方法。任何数据点如果远超这个区间，就可能是潜在的异常值。

在业务场景中，分位数更是无处不在。比如，分析客户消费行为时，我们可以计算“前10%高价值客户”的消费分位数，这能帮助我们识别核心用户群体。在性能监控中，我们常看95%或99%分位数的延迟，而不是平均延迟，因为平均值可能掩盖了大部分用户体验到的卡顿。这就像是，你不能只看一个网站的平均加载时间，因为那可能意味着大部分时间很快，但有5%的用户每次访问都慢得要死，而这5%的用户体验才是你真正需要关注的。

它提供了一种“分层”的视角，让我们能够更好地理解数据的内部结构，而不是被单一的聚合指标所蒙蔽。

选择不同的插值方法对分位数计算结果有何影响？

选择不同的插值方法，对于分位数计算结果的影响，主要体现在当分位数点恰好落在两个数据点之间时。这在数据量不大或者数据本身是离散型时尤为明显。我个人觉得，理解这些细微差别，对于需要精确统计分析的场景至关重要，否则可能在无意中引入偏差。

让我们用一个简单的序列来直观感受一下：data = [1, 2, 3, 4, 5, 6]，我们想计算25%分位数（即第1.5个数据点）。

'linear' (线性插值)： 这是Pandas的默认行为，也是最常用的。它会在两个相邻数据点之间进行线性计算。
- 对于上面的序列，25%分位数会是 1 + 0.5 * (2 - 1) = 1.5。
- 何时使用： 当你认为数据是连续的，并且希望分位数结果能反映出这种连续性时。它提供了一个平滑的估计。
'lower' (取较低值)： 简单粗暴，直接取分位数位置前的数据点。
- 对于上面的序列，25%分位数会是 1。
- 何时使用： 当你希望分位数结果总是数据集中存在的实际值，并且偏向于保守估计（例如，最低限度）。
'higher' (取较高值)： 与'lower'相反，取分位数位置后的数据点。
- 对于上面的序列，25%分位数会是 2。
- 何时使用： 当你希望分位数结果总是数据集中存在的实际值，并且偏向于宽松估计（例如，最高限度）。
'nearest' (取最近值)： 找到距离分位数位置最近的数据点。如果距离相等，Pandas会选择偶数索引的那个。
- 对于上面的序列，25%分位数是 2（因为1.5更接近2）。
- 何时使用： 当数据是离散的，或者你希望结果是数据集中实际存在的值，并且希望是最接近的那个。
'midpoint' (取中点)： 如果分位数位置恰好在两个数据点之间，就取这两个数据点的平均值。
- 对于上面的序列，25%分位数会是 (1 + 2) / 2 = 1.5。
- 何时使用： 当你希望结果是两个相邻实际值的平均，作为一种折衷方案。

总的来说，'linear'通常是合理的默认选择，因为它在统计学上提供了更平滑、更连续的估计。但如果你的数据是分类的、离散的，或者有特定的业务规则要求，那么选择'lower'、'higher'或'nearest'可能会更符合实际意义。理解这些差异，能帮助我们避免在关键分析中做出错误的假设。

处理包含缺失值的数据时，分位数计算需要注意哪些细节？

在实际数据分析中，缺失值（NaN）几乎是家常便饭。处理这些缺失值时，分位数计算确实有一些值得注意的细节，这直接关系到结果的准确性和可靠性。我个人习惯在进行任何统计计算前，先对缺失值有一个清晰的认识和处理策略。

Pandas的quantile()方法默认行为是相当友好的：它会自动跳过缺失值（即skipna=True）。这意味着在计算分位数时，NaN值不会被纳入排序和计数，只对有效数值进行计算。这在大多数情况下是合理的，因为它避免了NaN对分位数结果的干扰。

data_with_nan = pd.Series([10, 20, np.nan, 40, 50, 60, np.nan, 80, 90])
median_with_nan = data_with_nan.quantile(0.5)
print(f"包含缺失值的数据系列中位数（默认跳过NaN）: {median_with_nan}")

这里，np.nan被忽略了，中位数是基于 [10, 20, 40, 50, 60, 80, 90] 这7个有效值计算的。

然而，仅仅依赖默认行为有时是不够的。我们需要问自己：这些缺失值代表什么？

随机缺失 (MCAR/MAR): 如果缺失是随机的，或者与观测数据有关（但与缺失本身无关），那么skipna=True通常是合适的。你可能只需要确保有效数据量足够大，足以代表整体。
非随机缺失 (MNAR): 如果缺失值本身就包含了某种信息（例如，用户没有填写某个字段是因为他们没有相关信息，这本身就是一种“数据”），那么简单地跳过它们可能会导致信息丢失和偏差。在这种情况下，你可能需要：
- 填充缺失值： 使用fillna()方法，根据业务逻辑选择合适的填充策略（如均值、中位数、众数、前一个值、后一个值，或者一个特定的标记值如-1）。填充后再计算分位数。
- 移除缺失值： 如果缺失值比例很小，或者你确定这些缺失的行/列对分析没有价值，可以使用dropna()直接移除。但这可能导致数据量减少，甚至引入选择偏差。

# 示例：填充缺失值后计算
data_filled = data_with_nan.fillna(data_with_nan.median()) # 用中位数填充
median_after_fill = data_filled.quantile(0.5)
print(f"用中位数填充NaN后的中位数: {median_after_fill}")

# 示例：不跳过NaN（这通常会导致NaN结果，除非NaN被视为一个有效值，这在统计中不常见）
# data_with_nan.quantile(0.5, skipna=False) # 这会返回NaN，因为NaN在序列中

一个常见的误区是，如果数据集中有很多NaN，而你又直接使用quantile()，结果可能看起来“正常”，但它实际上是基于一个被“过滤”掉的子集。所以，在计算分位数之前，花点时间理解数据的质量和缺失值的含义，比直接套用方法要重要得多。数据清理和预处理，在我看来，永远是数据分析中最耗时但也最关键的一步。

理论要掌握，实操不能落！以上关于《Python用quantile计算分位数方法》的详细介绍，大家都掌握了吧！如果想要继续提升自己的能力，那么就来关注golang学习网公众号吧！

Pandas 缺失值插值方法分位数 quantile()