Python正则表达式怎么用
来到golang学习网的大家,相信都是编程学习爱好者,希望在这里学习文章相关编程知识。下面本篇文章就来带大家聊聊《python怎么使用正则表达式匹配内容_python正则表达式使用指南》,介绍一下,希望对大家的知识积累有所帮助,助力实战开发!
Python通过re模块实现正则表达式,核心是编写模式字符串并使用search、match、findall、sub等函数进行查找、匹配、提取和替换操作。
Python使用正则表达式主要通过内置的re
模块来实现,它提供了一系列函数,让你能够定义复杂的文本匹配模式,并在字符串中查找、替换或提取符合这些模式的内容。核心思想是先写一个描述目标文本结构的“模式字符串”,然后用re
模块的函数去处理你想要分析的文本。
解决方案
在Python里玩转正则表达式,我的经验是,首先得把re
模块请进来。这就像你要盖房子,得先有工具箱。
import re
然后,我们就可以开始干活了。最常用的几个工具大概是这样的:
re.search(pattern, string)
: 这个函数会扫描整个字符串,找到第一个匹配pattern
的位置。如果找到了,它会返回一个Match
对象;如果没找到,就返回None
。我个人觉得,这是日常使用频率最高的函数之一,因为很多时候我只需要知道“有没有”或者“第一个是什么”。text = "我的电话是138-0013-8000,紧急联系人电话是13912345678。" pattern = r"\d{3}-\d{4}-\d{4}" # 匹配手机号格式,r前缀表示这是一个原始字符串,避免反斜杠的转义问题 match = re.search(pattern, text) if match: print(f"找到了第一个电话号码: {match.group(0)}") # group(0)返回整个匹配到的字符串 # 输出: 找到了第一个电话号码: 138-0013-8000 else: print("没找到符合格式的电话号码。")
re.match(pattern, string)
: 和search
有点像,但它有个严格的规定:只从字符串的开头进行匹配。如果模式不在字符串开头,即使后面有匹配项,match
也会返回None
。这在处理固定格式的字符串开头时特别有用,比如我经常用它来验证文件名的前缀。text_start = "Hello World!" text_middle = "Say Hello World!" pattern_hello = r"Hello" match_start = re.match(pattern_hello, text_start) match_middle = re.match(pattern_hello, text_middle) if match_start: print(f"从开头匹配到: {match_start.group(0)}") # 输出: 从开头匹配到: Hello else: print("开头未匹配到。") if match_middle: print(f"从开头匹配到: {match_middle.group(0)}") else: print("开头未匹配到。") # 输出: 开头未匹配到。
re.findall(pattern, string)
: 如果你需要找出字符串中所有不重叠的匹配项,findall
就是你的不二之选。它会返回一个包含所有匹配字符串的列表。我发现它在从日志文件或网页内容中批量提取信息时特别好用。text_all_numbers = "商品A价格12.5元,商品B价格99.99元,商品C价格3元。" pattern_price = r"\d+\.?\d*" # 匹配整数或小数 all_prices = re.findall(pattern_price, text_all_numbers) print(f"所有价格: {all_prices}") # 输出: 所有价格: ['12.5', '99.99', '3']
re.sub(pattern, repl, string, count=0)
: 这个函数用来替换字符串中匹配pattern
的部分。repl
可以是字符串,也可以是一个函数。count
参数可以限制替换的次数。我经常用它来清洗数据,比如把多余的空格替换掉,或者把一些敏感信息脱敏。text_clean = "你好 世界! 这是一个 测试。" pattern_spaces = r"\s+" # 匹配一个或多个空格 cleaned_text = re.sub(pattern_spaces, " ", text_clean) print(f"清理后的文本: {cleaned_text}") # 输出: 清理后的文本: 你好 世界! 这是一个 测试。
理解这几个基本函数,并掌握如何构建模式字符串,你就已经迈出了Python正则表达式的第一步。
Python正则表达式中常用的匹配模式有哪些?
说实话,正则表达式的“模式”才是它真正强大且让人又爱又恨的地方。刚开始学的时候,我常常被那些符号搞得头晕眼花,但一旦掌握了,你会发现它们能解决很多看似复杂的文本处理问题。这里我把我日常最常用的一些模式总结一下:
基本字符匹配:
.
(点): 匹配除了换行符\n
之外的任意一个字符。这玩意儿简直是万能牌,但用的时候得小心,因为它可能匹配到你不想匹配的东西。\d
: 匹配任意一个数字(0-9)。我的密码验证、电话号码提取都离不开它。\D
: 匹配任意一个非数字字符。\w
: 匹配任意一个字母、数字或下划线([a-zA-Z0-9_])。处理变量名、单词时很方便。\W
: 匹配任意一个非字母、数字、下划线字符。\s
: 匹配任意一个空白字符(空格、制表符、换行符等)。文本清洗时,它和+
组合起来是神器。\S
: 匹配任意一个非空白字符。
数量词(Quantifiers): 这些是用来指定前面那个字符或组要出现多少次的。
*
: 匹配零次或多次。比如a*
能匹配""
,a
,aa
,aaa
...+
: 匹配一次或多次。a+
能匹配a
,aa
,aaa
...但不能匹配""
。?
: 匹配零次或一次。colou?r
可以匹配color
或colour
。{n}
: 匹配恰好n次。\d{4}
匹配四位数字。{n,}
: 匹配至少n次。\d{3,}
匹配三位或更多位数字。{n,m}
: 匹配n到m次。\d{3,5}
匹配三到五位数字。
边界匹配:
^
: 匹配字符串的开头。$
: 匹配字符串的结尾。\b
: 匹配单词边界。比如\bcat\b
只会匹配独立的单词"cat",而不会匹配"category"中的"cat"。这在精确匹配单词时非常有用。\B
: 匹配非单词边界。
字符集:
[abc]
: 匹配方括号中的任意一个字符。比如[aeiou]
匹配任意一个元音字母。[a-z]
: 匹配指定范围内的字符。[0-9]
等同于\d
。[^abc]
: 匹配不在方括号中的任意一个字符。[^0-9]
等同于\D
。
分组与捕获:
(pattern)
: 用小括号括起来的部分形成一个捕获组。这不仅能让你把一组模式当作一个整体来应用数量词(比如(ab)+
),还能让你在Match
对象中单独提取这个组匹配到的内容(通过match.group(1)
、match.group(2)
等)。我个人觉得,分组是正则表达式进阶的必经之路,数据提取全靠它了。(?:pattern)
: 非捕获组。它也把模式当作一个整体,但不会捕获匹配到的内容,所以不会占用group()
的索引。当你只想分组而不关心捕获时,用这个可以提升一点点性能,也让代码更清晰。
选择符:
|
: 或。cat|dog
可以匹配"cat"或"dog"。
转义:
\
(反斜杠): 如果你的模式中需要匹配正则表达式的特殊字符本身(比如.
,*
,?
,+
,(
,)
,[
,]
,{
,}
,^
,$
,|
,\
),你就需要在它们前面加上反斜杠进行转义。比如要匹配一个点号,你得写\.
。
构建这些模式的时候,我通常会先在心里模拟一下,或者直接用一些在线的正则表达式测试工具(比如regex101.com)来验证我的模式是不是真的能匹配到我想要的东西。
在Python中处理正则表达式匹配结果时有哪些技巧和注意事项?
匹配到了结果,怎么用好它,这也有不少学问。我这里分享一些我常用的技巧和踩过的一些坑。
Match对象的妙用: 当
re.search()
或re.match()
找到匹配时,它们返回的是一个Match
对象。这个对象可不只是告诉你“有”或“没有”那么简单,它包含了匹配的所有细节:match.group(0)
: 返回整个匹配到的字符串。这是最常用的。match.group(1)
,match.group(2)
...: 返回对应捕获组匹配到的字符串。如果你有多个捕获组,它们会按从左到右的顺序编号。match.groups()
: 返回一个包含所有捕获组内容的元组。match.start()
: 返回匹配开始的索引。match.end()
: 返回匹配结束的索引(不包含)。match.span()
: 返回一个元组(start, end)
。 利用这些,你可以精确地知道匹配到的内容是什么,在哪里。
text = "联系电话是: (010)1234-5678" pattern = r"\((\d{3})\)(\d{4}-\d{4})" # 两个捕获组,一个用于区号,一个用于号码 match = re.search(pattern, text) if match: print(f"完整匹配: {match.group(0)}") # 输出: (010)1234-5678 print(f"区号: {match.group(1)}") # 输出: 010 print(f"号码: {match.group(2)}") # 输出: 1234-5678 print(f"所有分组: {match.groups()}") # 输出: ('010', '1234-5678') print(f"匹配位置: {match.span()}") # 输出: (7, 22)
贪婪与非贪婪匹配: 这是个经典陷阱!默认情况下,正则表达式的数量词(
*
,+
,?
,{n,m}
)都是“贪婪”的,它们会尽可能多地匹配字符。但有时候,你可能只想要最短的匹配。这时,你可以在数量词后面加上一个?
,让它变成“非贪婪”模式。html_text = "<h1>标题1</h1><p>内容</p><h1>标题2</h1>" greedy_pattern = r"<h1>.*</h1>" # 贪婪模式 non_greedy_pattern = r"<h1>.*?</h1>" # 非贪婪模式 greedy_match = re.search(greedy_pattern, html_text) if greedy_match: print(f"贪婪匹配: {greedy_match.group(0)}") # 输出: <h1>标题1</h1><p>内容</p><h1>标题2</h1> non_greedy_match = re.search(non_greedy_pattern, html_text) if non_greedy_match: print(f"非贪婪匹配: {non_greedy_match.group(0)}") # 输出: <h1>标题1</h1>
你看,一个
?
的区别,结果大相径庭。我刚开始用的时候就经常被这个坑到,以为.*
就能匹配一个标签,结果把整个HTML都吞了。编译正则表达式: 如果你需要在程序中多次使用同一个正则表达式模式,那么使用
re.compile()
来编译它是一个非常好的习惯。它会把模式编译成一个RegexObject
对象,这样在后续使用时就不用每次都重新编译了,能提升一点性能。对于短脚本可能不明显,但对于处理大量文本或在循环中频繁使用正则的场景,编译带来的好处是实实在在的。phone_pattern = re.compile(r"(\d{3})-(\d{4})-(\d{4})") text_list = ["电话: 139-1234-5678", "座机: 010-8765-4321"] for text in text_list: match = phone_pattern.search(text) if match: print(f"找到号码: {match.group(0)}")
匹配标志(Flags):
re
模块提供了一些标志,可以改变正则表达式的匹配行为。这些标志可以作为函数的第三个参数传入,或者在编译时传入。re.IGNORECASE
(或re.I
): 忽略大小写。re.DOTALL
(或re.S
): 让.
(点号)也能匹配换行符\n
。默认情况下.
是不匹配换行符的。re.MULTILINE
(或re.M
): 改变^
和$
的行为。在多行模式下,^
不仅匹配字符串开头,还匹配每一行的开头;$
不仅匹配字符串结尾,还匹配每一行的结尾。
multi_line_text = "First line\nSecond line" pattern_dotall = r"First.*line" match_dotall = re.search(pattern_dotall, multi_line_text, re.DOTALL) if match_dotall: print(f"DOTALL匹配: '{match_dotall.group(0)}'") # 输出: 'First line\nSecond line'
处理无匹配情况: 永远要记得,
re.search()
和re.match()
在没有找到匹配时会返回None
。所以,在使用Match
对象之前,务必进行非空判断,否则直接访问match.group()
会抛出AttributeError
。这是我个人写代码时最常犯的低级错误之一,因为有时候我太自信我的模式了,哈哈。no_match_text = "没有数字" pattern_digit = r"\d+" match_obj = re.search(pattern_digit, no_match_text) if match_obj: # 良好的编程习惯 print(f"找到了: {match_obj.group(0)}") else: print("什么也没找到。")
掌握这些技巧,能让你在处理匹配结果时更加得心应手,避免一些不必要的错误。
Python正则表达式在实际开发中能解决哪些具体问题?
正则表达式在实际开发中简直是文本处理的瑞士军刀,用途非常广泛。我个人在很多场景下都依赖它,从最简单的文本清理到复杂的数据提取。
数据验证: 这是我用得最多的场景之一。
- 邮箱地址验证: 虽然完全符合RFC标准的邮箱正则非常复杂,但一个简单的模式(比如
r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
)就能过滤掉大部分不合法的输入。 - 手机号码验证: 针对不同国家的手机号格式,编写相应的正则进行验证。比如中国大陆的11位手机号(
r"^1[3-9]\d{9}$"
)。 - URL验证: 确保用户输入的链接格式正确。
- 密码强度检查: 检查密码是否包含大小写字母、数字、特殊字符,以及是否达到最小长度。
- 邮箱地址验证: 虽然完全符合RFC标准的邮箱正则非常复杂,但一个简单的模式(比如
文本提取: 从非结构化或半结构化文本中抽取出你想要的信息。
- 日志文件解析: 从大量的服务器日志中提取出错误信息、IP地址、请求时间、特定事件ID等。比如,我想找出所有包含“ERROR”关键字的行,并提取其后的错误代码。
- 网页爬虫数据提取: 虽然现在很多爬虫会用BeautifulSoup等库解析HTML,但在处理特定格式的文本块或JS代码中的数据时,正则依然是高效且直接的工具。比如,从
标签中提取JSON数据。
- 结构化数据转换: 从一些旧格式的文本文件中提取字段,然后转换成JSON或CSV格式。
文本清洗与转换: 让杂乱无章的文本变得规整。
- 去除多余空格:
re.sub(r"\s+", " ", text)
可以把文本中连续的空格、制表符、换行符等替换成单个空格。 - 格式化日期/时间: 将不同格式的日期字符串统一转换为标准格式。
- 敏感信息脱敏: 比如将身份证号码或银行卡号的中间几位用星号代替,保护用户隐私。
- HTML/XML标签清理: 从文本中移除所有HTML标签,只保留纯文本内容(当然,对于复杂的HTML,用解析库更稳妥)。
- 去除多余空格:
简单的文本搜索和替换:
- 在大量代码文件中查找并替换某个变量名或函数名,特别是当这个名字可能出现在不同的上下文,需要精确匹配时。
- 批量修改文档中的特定短语或格式。
我个人觉得,正则表达式的魅力在于它提供了一种模式化思维来处理文本。当你的目标文本结构有规律可循,但又不是严格的固定格式时,正则就能大显身手。不过,我也要提醒一句:不要滥用正则表达式。对于一些简单的字符串操作,比如判断一个子串是否存在("sub" in string
)或者简单的分割(string.split(',')
),直接使用Python字符串的内置方法通常更清晰、性能更好。只有当模式变得复杂、需要模糊匹配、或者需要捕获特定子结构时,正则表达式才是最佳选择。过度使用正则,不仅会让代码难以阅读和维护,还可能因为模式写得不好而引入意想不到的bug。所以,用之前先思考一下,是不是真的需要它。
本篇关于《Python正则表达式怎么用》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!

- 上一篇
- 京东新人红包怎么用?新手必看攻略

- 下一篇
- WinRAR解压安装详细教程
-
- 文章 · python教程 | 19分钟前 |
- Python发邮件带附件教程详解
- 186浏览 收藏
-
- 文章 · python教程 | 32分钟前 |
- DjangoLDAP认证:用户搜索与组权限配置教程
- 462浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python读取DICOM医疗数据方法
- 300浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python图像处理:Pillow库入门教程
- 319浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python类型提示是什么?有何优势?
- 419浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Python实现GPT-2文本生成教程
- 216浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Pandas多行更新技巧:map与update用法解析
- 168浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- with语句与上下文管理器原理解析
- 277浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python数据库操作指南:CRUD实战解析
- 210浏览 收藏
-
- 文章 · python教程 | 5小时前 |
- Matplotlib中文乱码解决方法大全
- 466浏览 收藏
-
- 文章 · python教程 | 5小时前 |
- Python嵌套列表扁平化方法
- 332浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 514次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 499次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- AI Mermaid流程图
- SEO AI Mermaid 流程图工具:基于 Mermaid 语法,AI 辅助,自然语言生成流程图,提升可视化创作效率,适用于开发者、产品经理、教育工作者。
- 621次使用
-
- 搜获客【笔记生成器】
- 搜获客笔记生成器,国内首个聚焦小红书医美垂类的AI文案工具。1500万爆款文案库,行业专属算法,助您高效创作合规、引流的医美笔记,提升运营效率,引爆小红书流量!
- 626次使用
-
- iTerms
- iTerms是一款专业的一站式法律AI工作台,提供AI合同审查、AI合同起草及AI法律问答服务。通过智能问答、深度思考与联网检索,助您高效检索法律法规与司法判例,告别传统模板,实现合同一键起草与在线编辑,大幅提升法律事务处理效率。
- 644次使用
-
- TokenPony
- TokenPony是讯盟科技旗下的AI大模型聚合API平台。通过统一接口接入DeepSeek、Kimi、Qwen等主流模型,支持1024K超长上下文,实现零配置、免部署、极速响应与高性价比的AI应用开发,助力专业用户轻松构建智能服务。
- 710次使用
-
- 迅捷AIPPT
- 迅捷AIPPT是一款高效AI智能PPT生成软件,一键智能生成精美演示文稿。内置海量专业模板、多样风格,支持自定义大纲,助您轻松制作高质量PPT,大幅节省时间。
- 607次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览