Python读取CSV文件的5种方法
从现在开始,努力学习吧!本文《Python读取csv文件方法大全》主要讲解了等等相关知识点,我会在golang学习网中持续更新相关的系列文章,欢迎大家关注并积极留言建议。下面就先一起来看一下本篇正文内容吧,希望能帮到你!
使用csv模块和pandas是Python读取CSV文件最常用的方法;csv适合基础逐行处理,pandas则擅长高效的数据分析与大规模操作,结合二者可应对绝大多数场景。

Python读取CSV文件,最常用且高效的方式莫过于使用内置的csv模块,它提供了基础而强大的解析能力,尤其适合处理结构相对简单或需要逐行处理的场景;而对于数据分析和大规模数据操作,pandas库则是不可或缺的利器,它将数据处理提升到了一个新的维度,让复杂的数据任务变得异常简洁。在我看来,掌握这两者,基本上就能应对Python中绝大多数CSV文件的读取需求了。
解决方案
说实话,处理CSV文件在日常工作中是再常见不过的任务了。我们来聊聊Python里那些真正好用的方法。
1. 使用Python内置的csv模块:基础而强大
csv模块是Python标准库的一部分,这意味着你无需安装任何额外的东西就能使用它。它非常适合处理那些结构规整,或者你需要对每一行数据进行细致控制的场景。
基本读取:
csv.reader这是最直接的方式,它会返回一个迭代器,每次迭代得到一行数据,通常是一个列表。import csv # 假设我们有一个名为 'data.csv' 的文件 # 内容可能是: # Name,Age,City # Alice,30,New York # Bob,24,London try: with open('data.csv', 'r', encoding='utf-8') as f: reader = csv.reader(f) # 跳过标题行,如果你不想要的话 header = next(reader) print(f"文件头: {header}") for row in reader: print(row) except FileNotFoundError: print("data.csv 文件不存在,请确保文件在当前目录下。") except Exception as e: print(f"读取文件时发生错误: {e}")这里
encoding='utf-8'非常关键,后面我们会详细聊到编码问题。如果你的CSV文件使用分号作为分隔符,可以这样指定:reader = csv.reader(f, delimiter=';')。字典方式读取:
csv.DictReader我个人更偏爱DictReader,因为它能将每一行数据直接映射成字典,以列名作为键。这样在访问数据时,你就不需要记住列的索引了,直接用列名访问,代码可读性会大大提高。import csv try: with open('data.csv', 'r', encoding='utf-8') as f: reader = csv.DictReader(f) for row in reader: # 假设CSV文件有'Name'和'Age'列 print(f"姓名: {row['Name']}, 年龄: {row['Age']}") except FileNotFoundError: print("data.csv 文件不存在。") except KeyError as e: print(f"字典键错误,可能CSV文件缺少列名:{e}") except Exception as e: print(f"读取文件时发生错误: {e}")是不是感觉方便多了?当CSV文件没有标题行时,你可以通过
fieldnames参数手动指定列名。
2. 使用pandas库:数据分析的利器
如果你的目标是数据分析、清洗、转换,或者处理的数据量较大,那么pandas绝对是你的首选。它构建在NumPy之上,提供了高性能的数据结构(主要是DataFrame),让数据处理变得异常高效和直观。
核心函数:
pd.read_csv()pandas的read_csv()函数功能异常强大,几乎可以应对各种复杂的CSV读取场景。import pandas as pd try: # 默认情况下,read_csv()会尝试识别分隔符,并假设第一行为标题 df = pd.read_csv('data.csv', encoding='utf-8') print("使用pandas读取的数据框:") print(df.head()) # 打印前几行数据 print("\n数据框信息:") df.info() # 查看数据类型和非空值数量 except FileNotFoundError: print("data.csv 文件不存在。") except Exception as e: print(f"使用pandas读取文件时发生错误: {e}")pd.read_csv()的常用参数:read_csv()的强大之处在于它的各种参数,能让你精细控制读取过程:sep(或delimiter): 指定分隔符,比如sep=';'。header: 指定哪一行作为列名。header=None表示没有标题行,header=0(默认)表示第一行是标题。names: 当没有标题行时,手动指定列名列表。index_col: 指定哪一列作为DataFrame的索引。dtype: 明确指定某些列的数据类型,可以节省内存并避免类型推断错误。encoding: 指定文件编码,这是个大坑,我们后面会细说。skiprows: 跳过文件开头的指定行数。nrows: 只读取文件的前N行。chunksize: 对于超大文件,可以分块读取,避免一次性加载到内存。parse_dates: 尝试将某些列解析为日期时间类型。
一个综合示例:
import pandas as pd # 假设有一个文件 'complex_data.csv' # 前两行是注释,第三行是标题,分隔符是制表符,日期列需要解析 # # This is a comment # # Another comment # ID\tName\tBirthday\tValue # 1\tAlice\t1990-01-15\t100.5 # 2\tBob\t1985-03-20\t200.0 try: df_complex = pd.read_csv('complex_data.csv', sep='\t', # 指定制表符为分隔符 skiprows=[0, 1], # 跳过前两行注释 parse_dates=['Birthday'], # 将Birthday列解析为日期 encoding='utf-8') print("\n使用更多参数读取的数据框:") print(df_complex.head()) print("\n解析后的数据类型:") print(df_complex.dtypes) except FileNotFoundError: print("complex_data.csv 文件不存在。") except Exception as e: print(f"读取复杂文件时发生错误: {e}")
Python读取CSV文件时,最让人头疼的编码问题该如何应对?
在我多年的数据处理经验里,编码问题绝对是新手甚至老手都会频繁踩坑的地方。你经常会看到UnicodeDecodeError这样的报错,让人抓狂。这通常意味着你告诉Python用A编码去解读一个实际是B编码的文件。
为什么会发生编码问题?
简单来说,不同的操作系统、不同的文本编辑器,甚至不同的国家,在保存文本文件时可能会使用不同的字符编码标准。比如,Windows系统下中文环境默认可能是gbk或gb2312,而Linux或Mac系统,以及网络传输,则更倾向于utf-8。当Python尝试以错误的编码方式读取文件时,它就无法正确地将字节序列转换成可识别的字符,于是就报错了。
如何诊断和解决?
首选
utf-8: 经验告诉我,utf-8是目前最通用、兼容性最好的编码。所以,无论是使用csv模块还是pandas,我都会首先尝试encoding='utf-8'。# csv 模块 with open('file.csv', 'r', encoding='utf-8') as f: # ... # pandas df = pd.read_csv('file.csv', encoding='utf-8')尝试其他常见编码:
gbk/gb2312/latin-1/iso-8859-1如果utf-8不行,尤其是处理来自国内Windows环境的文件,那么gbk或gb2312是很可能正确的选择。latin-1或iso-8859-1则是一种更宽松的编码,它能读取几乎所有字节,但对于非拉丁字符(如中文)可能会导致乱码,不过至少能保证文件能被打开,你再手动处理乱码列。# 尝试 gbk try: df = pd.read_csv('file.csv', encoding='gbk') except UnicodeDecodeError: print("gbk 编码失败,尝试其他编码...") # 尝试 latin-1 try: df = pd.read_csv('file.csv', encoding='latin-1') except Exception as e: print(f"所有尝试都失败了: {e}")利用
chardet库自动检测编码: 当你实在不确定文件的编码时,chardet库可以派上用场。它会尝试猜测文件的编码。不过,请注意,chardet不是100%准确,尤其是在文件较小或内容不够多样时,但它能提供一个很好的起点。import chardet import pandas as pd def detect_encoding(file_path, num_bytes=10000): """尝试检测文件的编码""" with open(file_path, 'rb') as f: # 以二进制模式读取 raw_data = f.read(num_bytes) # 读取前N个字节 result = chardet.detect(raw_data) return result['encoding'] file_path = 'unknown_encoding.csv' detected_enc = detect_encoding(file_path) print(f"检测到的编码是: {detected_enc}") if detected_enc: try: df = pd.read_csv(file_path, encoding=detected_enc) print("成功以检测到的编码读取文件。") except Exception as e: print(f"使用检测到的编码 {detected_enc} 失败: {e}") # fallback to manual tries if detection fails else: print("未能检测到编码,请手动尝试。")这是一个很实用的技巧,能帮你省下不少猜测的时间。
errors参数(慎用): 在open()函数或pd.read_csv()中,你可以使用errors='ignore'或errors='replace'来处理编码错误。ignore会忽略无法解码的字符,replace会用一个占位符替换它们。但这会丢失数据,通常只在数据质量要求不高或需要快速查看文件内容时使用。# 忽略编码错误,但数据可能不完整或乱码 df = pd.read_csv('file.csv', encoding='utf-8', errors='ignore')总的来说,处理编码问题需要耐心和一点点试错。从
utf-8开始,不行就尝试gbk,实在不行再借助chardet,最后才考虑latin-1或忽略错误。
读取CSV后,如何快速对数据进行初步的清洗和预处理?
数据读取进来只是第一步,真正有价值的工作往往从数据清洗和预处理开始。pandas在这方面简直是神一样的存在,它提供了一整套高效且直观的工具。
查看数据概览:
df.info()和df.head()/df.tail()这是我每次拿到新数据后的第一步。df.info()会告诉你每列的数据类型、非空值的数量以及内存占用,这对于了解数据质量至关重要。df.head()和df.tail()则能让你快速预览数据的前几行和后几行,有个直观的印象。# 假设 df 已经是一个 DataFrame print("数据框信息概览:") df.info() print("\n数据框前5行:") print(df.head())处理缺失值:
isnull()/dropna()/fillna()缺失值是数据清洗的常客。df.isnull().sum():统计每列的缺失值数量。df.dropna():删除含有缺失值的行或列(axis=1)。df.fillna(value):用指定的值(如均值、中位数、众数或特定字符串)填充缺失值。
# 检查缺失值 print("\n每列的缺失值数量:") print(df.isnull().sum()) # 删除所有含有缺失值的行 df_cleaned = df.dropna() print(f"\n删除缺失值后的行数: {len(df_cleaned)}") # 用平均值填充某一列的缺失值 # 假设 'Age' 列有缺失值,且是数值类型 if 'Age' in df.columns and pd.api.types.is_numeric_dtype(df['Age']): df['Age'].fillna(df['Age'].mean(), inplace=True) print("\n'Age'列缺失值已用均值填充。")处理重复值:
duplicated()/drop_duplicates()重复行会干扰分析结果。df.duplicated().sum():统计重复行的数量。df.drop_duplicates():删除重复行。你可以指定subset参数来基于特定列判断重复。
print(f"\n重复行数量: {df.duplicated().sum()}") df_unique = df.drop_duplicates() print(f"删除重复行后的行数: {len(df_unique)}")列名标准化:
rename()有时候列名可能不规范,包含特殊字符或空格。统一列名是一个好习惯。# 假设有一列名为 'User Name',我们想改成 'UserName' if 'User Name' in df.columns: df.rename(columns={'User Name': 'UserName'}, inplace=True) print("\n列名 'User Name' 已重命名为 'UserName'。")数据类型转换:
astype()/pd.to_datetime()/pd.to_numeric()df.info()中看到的数据类型可能不总是你想要的。比如,数字列被读成了字符串,或者日期被当成了对象。df['column'].astype(int):将列转换为整数。
本篇关于《Python读取CSV文件的5种方法》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!
UltraEdit写HTML步骤教程详解
- 上一篇
- UltraEdit写HTML步骤教程详解
- 下一篇
- Word文档结构图制作与导航使用技巧
-
- 文章 · python教程 | 6分钟前 |
- Python包初始化的三大优势解析
- 150浏览 收藏
-
- 文章 · python教程 | 13分钟前 |
- SpringBoot调用Python路径问题详解
- 384浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python开发区块链教程及实现方法
- 156浏览 收藏
-
- 文章 · python教程 | 2小时前 | Python 开发工具
- Python常用开发工具有哪些?
- 342浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- DuckDBSQL转JSON技巧与方法解析
- 344浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- pandas合并两个DataFrame的常用方法有:concat、merge、join。
- 283浏览 收藏
-
- 文章 · python教程 | 3小时前 | 列表 添加元素
- Python列表添加元素的5种方法
- 330浏览 收藏
-
- 文章 · python教程 | 4小时前 | Python 正无穷
- Python正无穷用inf表示方法
- 179浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- PythonPool方法全解析与使用技巧
- 197浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python浮点转百分比格式技巧
- 133浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python正则多行非贪婪替换技巧详解
- 172浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python环境变量转整数注解方法
- 372浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3232次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3443次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3472次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4584次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3852次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览

