Pandas合并Excel文件并添加来源列
文章不知道大家是否熟悉?今天我将给大家介绍《Pandas 合并 Excel 文件并添加来源列》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!
在数据分析和处理的日常工作中,我们经常会遇到需要将分散在多个 Excel 文件中的数据整合到一起的情况。这些文件通常具有相同的结构,但包含了不同时间段或不同来源的数据。在合并这些数据时,一个常见的需求是保留每条记录的原始文件来源信息,以便后续的数据溯源、分组分析或问题排查。本教程将详细阐述如何使用 Python 的 pandas 库和 glob 模块实现这一目标。
1. 准备工作
首先,确保您的 Python 环境中安装了 pandas 库。如果尚未安装,可以使用以下命令进行安装:
pip install pandas openpyxl
openpyxl 是 pandas 读取 .xlsx 格式 Excel 文件所需的引擎。
2. 核心思路
合并多个 Excel 文件并添加源文件名列的核心思路如下:
- 使用 glob 模块查找指定路径下的所有目标 Excel 文件。
- 创建一个空的 pandas DataFrame,用于存储所有合并后的数据。
- 遍历每一个找到的 Excel 文件:
- 读取当前 Excel 文件到临时的 DataFrame 中。
- 在临时 DataFrame 中新增一个列,将当前文件的完整路径(或文件名)作为该列的值赋给所有行。
- 将带有源文件名列的临时 DataFrame 追加到总的合并 DataFrame 中。
- 将最终合并的数据保存到新的 Excel 文件。
3. 代码实现
以下是实现上述功能的 Python 代码示例:
import glob import pandas as pd import os # 导入 os 模块以获取文件名 def combine_excel_files_with_filename(input_path_pattern, output_file, sheet_name='Sheet', skip_rows=0, use_cols=None): """ 合并指定路径下的所有 Excel 文件,并为每条记录添加源文件名列。 Args: input_path_pattern (str): 用于匹配 Excel 文件的路径模式,例如 '../content/*.xlsx'。 output_file (str): 合并后数据输出的 Excel 文件路径,例如 '../content/multiplesheet.xlsx'。 sheet_name (str): 输出 Excel 文件的 sheet 名称,默认为 'Sheet'。 skip_rows (int): 读取每个 Excel 文件时跳过的行数,默认为 0。 use_cols (list): 读取每个 Excel 文件时使用的列名列表,默认为 None (读取所有列)。 """ # 1. 使用 glob 查找所有匹配的 Excel 文件 files = glob.glob(input_path_pattern) if not files: print(f"警告:未找到匹配 '{input_path_pattern}' 的文件。") return combined_df = pd.DataFrame() # 初始化一个空的 DataFrame 用于存储合并结果 print(f"开始处理 {len(files)} 个文件...") for file_path in files: try: # 2. 读取当前 Excel 文件 # 注意:skiprows 和 usecols 参数根据实际文件结构调整 current_df = pd.read_excel(file_path, skiprows=skip_rows, usecols=use_cols) # 如果指定了 use_cols,确保DataFrame中只有这些列, # 这一步在 read_excel 的 usecols 参数已经处理,但如果 use_cols 是一个子集, # 并且想确保顺序,可以再次筛选。原始问题中包含了这一步,这里保留。 if use_cols: current_df = current_df[use_cols] # 3. 添加源文件名列 # os.path.basename(file_path) 可以只获取文件名,不包含路径 current_df['filename'] = os.path.basename(file_path) # 4. 将当前 DataFrame 追加到总的 DataFrame 中 combined_df = pd.concat([combined_df, current_df], ignore_index=True) print(f"已处理文件: {os.path.basename(file_path)}") except Exception as e: print(f"处理文件 '{os.path.basename(file_path)}' 时发生错误: {e}") continue # 继续处理下一个文件 # 5. 将合并后的数据保存到新的 Excel 文件 if not combined_df.empty: try: combined_df.to_excel(output_file, sheet_name=sheet_name, index=False) print(f"\n所有文件已成功合并并保存到: {output_file}") except Exception as e: print(f"保存合并文件到 '{output_file}' 时发生错误: {e}") else: print("\n没有数据被成功合并。") # 示例调用 if __name__ == "__main__": # 假设您的 Excel 文件位于 '../content/' 目录下 # 并且每个文件都跳过第一行,并只使用指定列 input_pattern = r'../content/*.xlsx' output_path = "../content/multiplesheet.xlsx" # 原始问题中指定的列 columns_to_use = ['Уровень','Код WBS','Код','Тип','Название'] combine_excel_files_with_filename( input_path_pattern=input_pattern, output_file=output_path, skip_rows=1, # 根据原始问题,跳过第一行 use_cols=columns_to_use )
4. 关键步骤解析
- glob.glob(input_path_pattern): 这个函数用于查找所有与指定模式匹配的文件路径。例如,'../content/*.xlsx' 会匹配 ../content/ 目录下所有以 .xlsx 结尾的文件。
- pd.read_excel(file_path, skiprows=1, use_cols=['...']): 这是 pandas 读取 Excel 文件的核心函数。
- file_path:要读取的 Excel 文件路径。
- skiprows=1:表示在读取数据时跳过文件的第一行,这通常用于跳过标题行或不相关的数据。
- use_cols=['...']:指定只读取 Excel 文件中的哪些列。这有助于减少内存使用并聚焦于所需数据。
- current_df['filename'] = os.path.basename(file_path): 这是添加源文件名列的关键一步。os.path.basename(file_path) 函数从完整的文件路径中提取出文件名(不包含目录路径)。这个文件名会被赋值给 current_df 中新创建的名为 'filename' 的所有行。
- pd.concat([combined_df, current_df], ignore_index=True): pd.concat 函数用于将两个或多个 DataFrame 沿指定轴连接起来。
- [combined_df, current_df]:要连接的 DataFrame 列表。
- ignore_index=True:在连接后重新生成索引,避免重复的索引值。
5. 注意事项
文件路径管理: 确保 input_path_pattern 和 output_file 的路径是正确的。使用相对路径(如 ../content/)时,要明确脚本运行的当前工作目录。
内存效率: 对于数量巨大或单文件很大的 Excel 文件,频繁使用 pd.concat 在循环内部可能会导致性能下降,因为它每次都会创建新的 DataFrame。一个更高效的方法是先将每个 current_df 存储在一个列表中,然后在循环结束后一次性调用 pd.concat:
# 优化后的合并部分 all_dfs = [] for file_path in files: try: current_df = pd.read_excel(file_path, skiprows=skip_rows, use_cols=use_cols) if use_cols: current_df = current_df[use_cols] current_df['filename'] = os.path.basename(file_path) all_dfs.append(current_df) print(f"已处理文件: {os.path.basename(file_path)}") except Exception as e: print(f"处理文件 '{os.path.basename(file_path)}' 时发生错误: {e}") continue if all_dfs: combined_df = pd.concat(all_dfs, ignore_index=True) else: combined_df = pd.DataFrame() # 确保在没有文件时 combined_df 仍然是空的 DataFrame
这种方式在处理大量文件时能显著提高性能。
错误处理: 在示例代码中,我们添加了 try-except 块来捕获文件读取或处理过程中可能出现的错误,例如文件损坏或格式不正确。这增强了程序的健壮性。
列名与数据类型: 确保所有 Excel 文件的列名和数据类型一致,否则合并后可能会出现不一致的数据类型或额外的列。use_cols 参数有助于强制列的一致性。
索引: ignore_index=True 是非常重要的,它会为合并后的 DataFrame 创建一个全新的、连续的索引,避免了原始文件索引的混淆。
6. 总结
通过本教程,您已经掌握了如何使用 Python 的 pandas 库和 glob 模块高效地合并多个 Excel 文件,并在合并过程中为每条记录动态添加一个指示其来源文件的新列。这一技巧在数据集成、报告生成和数据追溯等场景中非常实用,能够极大地提高您的数据处理效率和分析能力。记住,根据实际数据量和性能需求,可以选择不同的合并策略(如先收集列表再 concat)来优化代码。
以上就是本文的全部内容了,是否有顺利帮助你解决问题?若是能给你带来学习上的帮助,请大家多多支持golang学习网!更多关于文章的相关知识,也可关注golang学习网公众号。

- 上一篇
- Redis集群监控工具与关键指标解析

- 下一篇
- 中矿资源3万吨高纯锂盐项目投产停产6个月
-
- 文章 · python教程 | 2小时前 |
- Python垃圾回收机制全解析
- 456浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Pythoninput函数详解与使用教程
- 138浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python实现XML-RPC分布式调用教程
- 309浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Python编程必学:用途全解析
- 361浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- PythonLambda函数详解与实例教程
- 107浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Python基因组处理,Biopython入门指南
- 299浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Pythonhashlib加密解密全解析
- 309浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python代码混淆:AST模块实战教程
- 396浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Pythonf-string高效格式化技巧
- 244浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python列表查询:获取关联数据技巧
- 320浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Java调用Python报9009错误解决方法
- 189浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- PyCharm添加本地解释器详细教程
- 358浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 边界AI平台
- 探索AI边界平台,领先的智能AI对话、写作与画图生成工具。高效便捷,满足多样化需求。立即体验!
- 425次使用
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 428次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 565次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 668次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 577次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览