30个超实用的Python函数,能够应对几乎所有的数据处理任务!
小伙伴们对文章编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《30个超实用的Python函数,能够应对几乎所有的数据处理任务!》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对大家的知识积累有所帮助!
我们知道 Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法,可以快速解决数据分析中数据处理问题。
为了更好的掌握 Python 函数的使用方法,我以客户流失数据集为例,分享30个在数据分析过程中最常使用的函数和方法,数据文末可以下载。
数据如下所示:
import numpy as np import pandas as pd df = pd.read_csv("Churn_Modelling.csv") print(df.shape) df.columns
结果输出
(10000, 14) Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography','Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard','IsActiveMember', 'EstimatedSalary', 'Exited'],dtype='object')
1.删除列
df.drop(['RowNumber', 'CustomerId', 'Surname', 'CreditScore'], axis=1, inplace=True) print(df[:2]) print(df.shape)
结果输出
说明:「axis」 参数设置为 1 以放置列,0 设置为行。「inplace=True」 参数设置为 True 以保存更改。我们减了 4 列,因此列数从 14 个减少到 10 列。
GeographyGenderAgeTenureBalanceNumOfProductsHasCrCard 0FranceFemale 42 20.011 IsActiveMemberEstimatedSalaryExited 0 1101348.88 1 (10000, 10)
2.选择特定列
我们从 csv 文件中读取部分列数据。可以使用 usecols 参数。
df_spec = pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance']) df_spec.head()
3.nrows
可以使用 nrows 参数,创建了一个包含 csv 文件前 5000 行的数据帧。还可以使用 skiprows 参数从文件末尾选择行。Skiprows=5000 表示我们将在读取 csv 文件时跳过前 5000 行。
df_partial = pd.read_csv("Churn_Modelling.csv", nrows=5000) print(df_partial.shape)
4.样品
创建数据框后,我们可能需要一个小样本来测试数据。我们可以使用 n 或 frac 参数来确定样本大小。
df= pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance']) df_sample = df.sample(n=1000) df_sample2 = df.sample(frac=0.1)
5.检查缺失值
isna 函数确定数据帧中缺失的值。通过将 isna 与 sum 函数一起使用,我们可以看到每列中缺失值的数量。
df.isna().sum()
6.使用 loc 和 iloc 添加缺失值
使用 loc 和 iloc 添加缺失值,两者区别如下:
- loc:选择带标签
- iloc:选择索引
我们首先创建 20 个随机索引进行选择 。
missing_index = np.random.randint(10000, size=20)
我们将使用 loc 将某些值更改为 np.nan(缺失值)。
df.loc[missing_index, ['Balance','Geography']] = np.nan
"Balance"和"Geography"列中缺少 20 个值。让我们用 iloc 做另一个示例。
df.iloc[missing_index, -1] = np.nan
7.填充缺失值
fillna 函数用于填充缺失的值。它提供了许多选项。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。
avg = df['Balance'].mean() df['Balance'].fillna(value=avg, inplace=True)
fillna 函数的方法参数可用于根据列中的上一个或下一个值(例如方法="ffill")填充缺失值。它可以对顺序数据(例如时间序列)非常有用。
8.删除缺失值
处理缺失值的另一个方法是删除它们。以下代码将删除具有任何缺失值的行。
df.dropna(axis=0, how='any', inplace=True)
9.根据条件选择行
在某些情况下,我们需要适合某些条件的观测值(即行)
france_churn = df[(df.Geography == 'France') & (df.Exited == 1)] france_churn.Geography.value_counts()
10.用查询描述条件
查询函数提供了一种更灵活的传递条件的方法。我们可以用字符串来描述它们。
df2 = df.query('8000011.用 isin 描述条件
条件可能有多个值。在这种情况下,最好使用 isin 方法,而不是单独编写值。
df[df['Tenure'].isin([4,6,9,10])][:3]
12.Groupby 函数
Pandas Groupby 函数是一个多功能且易于使用的功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间的基本关系更加容易。
我们将做几个组比函数的示例。让我们从简单的开始。以下代码将基于 Geography、Gender 组合对行进行分组,然后给出每个组的平均流
df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()13.Groupby与聚合函数结合
agg 函数允许在组上应用多个聚合函数,函数的列表作为参数传递。
df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])14.对不同的群体应用不同的聚合函数
df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg({'Exited':'sum', 'Balance':'mean'}) df_summary.rename(columns={'Exited':'# of churned customers', 'Balance':'Average Balance of Customers'},inplace=True)此外,「NamedAgg 函数」允许重命名聚合中的列
import pandas as pd df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg(Number_of_churned_customers = pd.NamedAgg('Exited', 'sum'),Average_balance_of_customers = pd.NamedAgg('Balance', 'mean')) print(df_summary)
15.重置索引
您是否已经注意到上图的数据格式了。我们可以通过重置索引来更改它。
print(df_summary.reset_index())
16.重置并删除原索引
在某些情况下,我们需要重置索引并同时删除原始索引。
df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True)17.将特定列设置为索引
我们可以将数据帧中的任何列设置为索引。
df_new.set_index('Geography')18.插入新列
group = np.random.randint(10, size=6) df_new['Group'] = group19.where 函数
它用于根据条件替换行或列中的值。默认替换值为 NaN,但我们也可以指定要作为替换值。
df_new['Balance'] = df_new['Balance'].where(df_new['Group'] >= 6, 0)20.等级函数
等级函数为值分配一个排名。让我们创建一个列,根据客户的余额对客户进行排名。
df_new['rank'] = df_new['Balance'].rank(method='first', ascending=False).astype('int')21.列中的唯一值数
它使用分类变量时派上用场。我们可能需要检查唯一类别的数量。我们可以检查值计数函数返回的序列的大小或使用 nunique 函数。
df.Geography.nunique22.内存使用情况
使用函数 memory_usage,这些值显示以字节为单位的内存。
df.memory_usage()
23.数据类型转换
默认情况下,分类数据与对象数据类型一起存储。但是,它可能会导致不必要的内存使用,尤其是当分类变量具有较低的基数。
低基数意味着列与行数相比几乎没有唯一值。例如,地理列具有 3 个唯一值和 10000 行。
我们可以通过将其数据类型更改为"类别"来节省内存。
df['Geography'] = df['Geography'].astype('category')24.替换值
替换函数可用于替换数据帧中的值。
df['Geography'].replace({0:'B1',1:'B2'})25.绘制直方图
pandas 不是一个数据可视化库,但它使得创建基本绘图变得非常简单。
我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。
让我们创建平衡列的直方图。
26.减少浮点数小数点
pandas 可能会为浮点数显示过多的小数点。我们可以轻松地调整它。
df['Balance'].plot(kind='hist', figsize=(10,6), title='Customer Balance')27.更改显示选项
我们可以更改各种参数的默认显示选项,而不是每次手动调整显示选项。
- get_option:返回当前选项
- set_option:更改选项 让我们将小数点的显示选项更改为 2。
pd.set_option("display.precision", 2)
可能要更改的一些其他选项包括:
- max_colwidth:列中显示的最大字符数
- max_columns:要显示的最大列数
- max_rows:要显示的最大行数
28.通过列计算百分比变化
pct_change用于计算序列中值的变化百分比。在计算时间序列或元素顺序数组中更改的百分比时,它很有用。
ser= pd.Series([2,4,5,6,72,4,6,72]) ser.pct_change()
29.基于字符串的筛选
我们可能需要根据文本数据(如客户名称)筛选观测值(行)。我已经在数据帧中添加了df_new名称。
df_new[df_new.Names.str.startswith('Mi')]
我们可能需要根据文本数据(如客户名称)筛选观测值(行)。我已经在数据帧中添加了df_new名称。
30.设置数据样式
我们可以通过使用返回 Style 对象的 Style 属性来实现此目的,它提供了许多用于格式化和显示数据框的选项。例如,我们可以突出显示最小值或最大值。
它还允许应用自定义样式函数。
df_new.style.highlight_max(axis=0, color='darkgreen')
文中关于Python,函数,数据分析的知识介绍,希望对你的学习有所帮助!若是受益匪浅,那就动动鼠标收藏这篇《30个超实用的Python函数,能够应对几乎所有的数据处理任务!》文章吧,也可关注golang学习网公众号了解相关技术文章。

- 上一篇
- mac管理员密码错误

- 下一篇
- 拉普拉斯正则化
-
- 文章 · python教程 | 2分钟前 |
- python中pip包管理工具的安装指南
- 365浏览 收藏
-
- 文章 · python教程 | 10分钟前 |
- PyCharm图形不显示?一招搞定
- 443浏览 收藏
-
- 文章 · python教程 | 11分钟前 |
- PyCharm远程调试Linux服务器Python项目攻略
- 351浏览 收藏
-
- 文章 · python教程 | 16分钟前 |
- Pythonif语句详解条件判断实战教程
- 279浏览 收藏
-
- 文章 · python教程 | 10小时前 |
- Pythonasync/await使用技巧与示例
- 348浏览 收藏
-
- 文章 · python教程 | 10小时前 |
- PyCharm中文设置教程详细步骤解析
- 374浏览 收藏
-
- 文章 · python教程 | 11小时前 |
- PyCharm首次设置指南必看新手教程
- 444浏览 收藏
-
- 文章 · python教程 | 13小时前 |
- Python中如何高效操作numpy数组?
- 228浏览 收藏
-
- 文章 · python教程 | 16小时前 |
- Python中split用法与字符串分割技巧
- 335浏览 收藏
-
- 文章 · python教程 | 17小时前 |
- Python中\\\_\\\_slots\\\_\\\_如何节省内存?
- 369浏览 收藏
-
- 文章 · python教程 | 18小时前 |
- python中yield的用法详解及生成器教程
- 265浏览 收藏
-
- 文章 · python教程 | 20小时前 |
- %s在python中是什么意思?解析python格式化字符串占位符
- 280浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 魔匠AI
- SEO摘要魔匠AI专注于高质量AI学术写作,已稳定运行6年。提供无限改稿、选题优化、大纲生成、多语言支持、真实参考文献、数据图表生成、查重降重等全流程服务,确保论文质量与隐私安全。适用于专科、本科、硕士学生及研究者,满足多语言学术需求。
- 20次使用
-
- PPTFake答辩PPT生成器
- PPTFake答辩PPT生成器,专为答辩准备设计,极致高效生成PPT与自述稿。智能解析内容,提供多样模板,数据可视化,贴心配套服务,灵活自主编辑,降低制作门槛,适用于各类答辩场景。
- 36次使用
-
- Lovart
- SEO摘要探索Lovart AI,这款专注于设计领域的AI智能体,通过多模态模型集成和智能任务拆解,实现全链路设计自动化。无论是品牌全案设计、广告与视频制作,还是文创内容创作,Lovart AI都能满足您的需求,提升设计效率,降低成本。
- 48次使用
-
- 美图AI抠图
- 美图AI抠图,依托CVPR 2024竞赛亚军技术,提供顶尖的图像处理解决方案。适用于证件照、商品、毛发等多场景,支持批量处理,3秒出图,零PS基础也能轻松操作,满足个人与商业需求。
- 46次使用
-
- PetGPT
- SEO摘要PetGPT 是一款基于 Python 和 PyQt 开发的智能桌面宠物程序,集成了 OpenAI 的 GPT 模型,提供上下文感知对话和主动聊天功能。用户可高度自定义宠物的外观和行为,支持插件热更新和二次开发。适用于需要陪伴和效率辅助的办公族、学生及 AI 技术爱好者。
- 45次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览