NumPy快速提取Pandas指定单元格数据
本文针对Pandas DataFrame中根据指定坐标高效提取单元格的问题,提出了一种基于NumPy矢量化索引的解决方案,完美符合百度SEO。传统方法在处理大量坐标时效率低下,而本文方法将DataFrame转换为NumPy数组,利用其强大的高级索引功能,将坐标列表转换为NumPy可识别的格式,实现了单元格的批量选择与赋值,避免了低效的循环操作。同时,该方法支持“反向选择”模式,可灵活保留或剔除指定坐标的单元格内容。通过示例代码和详细步骤,展示了如何利用NumPy提升Pandas数据处理性能,为数据分析人员提供了一种高效实用的工具。该方法具有性能优势、数据类型兼容性及灵活性,能够轻松应对大规模数据的精确选择和操作。

本文详细介绍了如何利用NumPy的强大索引能力,高效地从Pandas DataFrame中根据一组行/列坐标选择特定单元格,并支持“反向选择”模式。通过将坐标列表转换为适合NumPy数组索引的转置元组,我们能够以矢量化方式创建新的DataFrame,填充指定单元格或将其余单元格留空,从而避免了低效的循环操作,显著提升了数据处理性能。
引言
在数据分析和处理中,我们经常需要从大型数据结构中精确地提取或修改特定数据点。对于Pandas DataFrame而言,虽然有多种选择数据的方法(如loc、iloc、at、iat),但当需要根据一组非连续的(行索引, 列索引)坐标来批量选择单元格时,直接迭代往往效率低下。本文将介绍一种利用NumPy数组的矢量化索引功能,高效地实现DataFrame指定单元格选择,并支持反向选择的策略。
问题描述与传统方法的局限
假设我们有一个Pandas DataFrame和一个包含(行, 列)元组的坐标列表。我们的目标是根据这些坐标来选择DataFrame中的特定单元格,并能够灵活地实现两种模式:
- 正向选择 (inverted=False):只保留指定坐标处的单元格内容,其余单元格留空(例如,设置为 '')。
- 反向选择 (inverted=True):保留所有非指定坐标处的单元格内容,而将指定坐标处的单元格留空。
传统上,对于单个或少量单元格的操作,我们可以使用df.iat[row, col]或df.at[row_label, col_label]。但当坐标列表较长时,循环遍历并逐个操作这些单元格会非常慢,尤其是在需要创建新DataFrame而不是原地修改时。
解决方案:利用NumPy的矢量化索引
NumPy数组提供了强大的高级索引功能,允许我们使用整数数组作为索引来同时选择多个非连续的元素。这是实现高效批量选择的关键。
核心思路
- DataFrame到NumPy数组的转换:将Pandas DataFrame转换为NumPy数组,以便利用NumPy的矢量化操作。
- 坐标列表的转换:将[(row1, col1), (row2, col2), ...]形式的坐标列表转换为NumPy高级索引所需的(array([row1, row2, ...]), array([col1, col2, ...]))形式。
- 矢量化选择与赋值:根据inverted标志,创建目标数组并使用转换后的坐标进行高效的赋值操作。
- NumPy数组到DataFrame的转换:将处理后的NumPy数组转换回Pandas DataFrame。
步骤详解与示例代码
首先,定义我们的输入数据:
import pandas as pd
import numpy as np
df = pd.DataFrame({
'col1': ['A', 'B', 'C', 'A', 'G'],
'col2': ['B', 'E', 'F', 'F', 'H'],
'col3': ['C', 'D', 'E', 'A', 'I']
})
coords = [(2, 0), (3, 2)]
print("原始DataFrame:")
print(df)输出:
原始DataFrame: col1 col2 col3 0 A B C 1 B E D 2 C F E 3 A F A 4 G H I
接下来,我们构建实现选择逻辑的函数:
def select_cells_by_coords(dataframe: pd.DataFrame, coordinates: list, inverted: bool = False) -> pd.DataFrame:
"""
根据给定的坐标列表选择或反向选择DataFrame中的单元格。
参数:
dataframe (pd.DataFrame): 输入的Pandas DataFrame。
coordinates (list): 包含 (行索引, 列索引) 元组的列表。
inverted (bool): 如果为True,则保留非指定坐标的单元格,将指定坐标的单元格留空。
如果为False,则只保留指定坐标的单元格,其余留空。
返回:
pd.DataFrame: 经过选择操作后的新DataFrame。
"""
# 1. 将DataFrame转换为NumPy数组
data_array = dataframe.to_numpy()
# 2. 转换坐标列表为NumPy高级索引格式
# np.array(coordinates) 得到 [[r1, c1], [r2, c2], ...]
# .T 进行转置得到 [[r1, r2, ...], [c1, c2, ...]]
# tuple(...) 将其转换为 (array([r1, r2, ...]), array([c1, c2, ...]))
# 这是NumPy高级索引所期望的格式
np_coords = tuple(np.array(coordinates).T)
# 3. 根据 'inverted' 标志执行选择逻辑
if inverted:
# 反向选择:复制原始数据,然后将指定坐标处的单元格设置为空字符串
output_array = data_array.copy()
output_array[np_coords] = ''
else:
# 正向选择:创建一个与原始DataFrame形状相同的空字符串数组
# 然后将原始数据中指定坐标的单元格内容复制过来
output_array = np.full(data_array.shape, '', dtype=object) # 使用object dtype以容纳混合类型
output_array[np_coords] = data_array[np_coords]
# 4. 将处理后的NumPy数组转换回Pandas DataFrame
return pd.DataFrame(output_array, columns=dataframe.columns)
# 测试函数
print("\n--- 正向选择 (inverted=False) ---")
result_normal = select_cells_by_coords(df, coords, inverted=False)
print(result_normal)
print("\n--- 反向选择 (inverted=True) ---")
result_inverted = select_cells_by_coords(df, coords, inverted=True)
print(result_inverted)预期输出:
--- 正向选择 (inverted=False) --- col1 col2 col3 0 1 2 C 3 A 4 --- 反向选择 (inverted=True) --- col1 col2 col3 0 A B C 1 B E D 2 F E 3 A F 4 G H I
代码解析
- dataframe.to_numpy(): 这是性能优化的第一步。Pandas DataFrame的索引和标签查找开销较大,而NumPy数组的直接内存访问和索引操作效率更高。
- tuple(np.array(coordinates).T): 这是理解本方案的关键。
- np.array(coordinates)将[(2, 0), (3, 2)]转换为二维NumPy数组 [[2, 0], [3, 2]]。
- .T(转置)操作将其变为 [[2, 3], [0, 2]]。
- tuple(...) 将其转换为 (array([2, 3]), array([0, 2]))。
- 这种(行索引数组, 列索引数组)的元组形式正是NumPy高级索引所需要的,它会选择所有由(行索引数组[i], 列索引数组[i])定义的单元格。
- if inverted: 逻辑:
- 当 inverted=True 时,我们首先复制原始数据 (data_array.copy()),然后直接使用 output_array[np_coords] = '' 将指定坐标处的单元格内容替换为空字符串。
- 当 inverted=False 时,我们首先创建一个与原始数据形状相同的全空字符串数组 (np.full(data_array.shape, '', dtype=object))。dtype=object 是为了确保能够容纳字符串,避免NumPy在混合类型时尝试统一为数值类型导致的问题。然后,我们从原始数据中提取指定坐标的单元格内容 (data_array[np_coords]),并将其赋值给 output_array 相同坐标的位置。
- pd.DataFrame(output_array, columns=dataframe.columns): 最后一步是将处理后的NumPy数组重新封装回Pandas DataFrame,并保留原始的列名。
注意事项与总结
- 性能优势:相较于使用df.iat在循环中逐个修改单元格,NumPy的矢量化操作能够显著提高处理大量坐标时的性能。
- 数据类型兼容性:在将单元格设置为空字符串''时,如果原始DataFrame包含数值类型数据,NumPy数组的dtype可能会变为object以容纳混合类型。这通常不会影响后续操作,但需要注意数据类型的变化。如果需要保留数值类型并在空白处使用np.nan,则需要相应调整填充值。
- 灵活性:这种方法不仅限于设置为空字符串,你可以根据需求将指定单元格设置为任何其他值,或者执行更复杂的计算。
- 内存使用:此方法会创建原始DataFrame的NumPy数组副本以及一个结果数组。对于非常大的DataFrame,需要考虑内存消耗。
通过以上方法,我们能够以一种既高效又灵活的方式,根据坐标列表对Pandas DataFrame的单元格进行精确选择和操作,无论是正向筛选还是反向剔除,都能轻松应对。这充分展示了NumPy与Pandas结合在数据处理中的强大威力。
好了,本文到此结束,带大家了解了《NumPy快速提取Pandas指定单元格数据》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!
Laravel与ThinkPHP框架使用教程详解
- 上一篇
- Laravel与ThinkPHP框架使用教程详解
- 下一篇
- PHP字符串拼接用点号(.)
-
- 文章 · python教程 | 7小时前 |
- PandasDataFrame列赋值NaN方法解析
- 205浏览 收藏
-
- 文章 · python教程 | 8小时前 |
- Python元组括号用法与列表推导注意事项
- 143浏览 收藏
-
- 文章 · python教程 | 8小时前 |
- ib\_insync获取SPX历史数据教程
- 395浏览 收藏
-
- 文章 · python教程 | 8小时前 |
- GTK3Python动态CSS管理技巧分享
- 391浏览 收藏
-
- 文章 · python教程 | 8小时前 |
- Python微服务开发:Nameko框架全解析
- 269浏览 收藏
-
- 文章 · python教程 | 9小时前 |
- Xarray重采样技巧:解决维度冲突方法
- 410浏览 收藏
-
- 文章 · python教程 | 9小时前 | 多进程编程 进程间通信 进程池 process multiprocessing
- Python3多进程技巧与实战指南
- 131浏览 收藏
-
- 文章 · python教程 | 10小时前 |
- Python列表线程传递方法详解
- 382浏览 收藏
-
- 文章 · python教程 | 10小时前 |
- Python国内镜像源设置方法
- 154浏览 收藏
-
- 文章 · python教程 | 10小时前 |
- 数据库迁移步骤与实用技巧分享
- 251浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3167次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3380次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3409次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4513次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3789次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览

