Python 正则表达式基础与实战指南 | 极客日志

Python算法

Python 正则表达式基础与实战指南

Python 正则表达式的基础知识与实战应用。内容涵盖正则表达式的基本概念、re 模块的核心函数（match、search、sub、findall 等）、特殊字符类与量语法的详细解析、分组与反向引用机制、编译优化技巧以及常用标志位的用法。文章通过代码示例演示了如何构建高效的文本匹配与替换逻辑，并提供了关于性能优化与安全性的最佳实践建议，旨在帮助开发者掌握利用正则表达式处理复杂字符串场景的能力。

黑客发布于 2025/2/6更新于 2026/7/3035 浏览

1 前言

正则表达式（Regular Expression，简称 Regex）是对字符串操作的一种逻辑公式，通过事先定义好的一些特定字符及其组合，组成一个'规则字符串'，用来表达对字符串的过滤、匹配或替换逻辑。它是一种文本模式，描述在搜索文本时要匹配的一个或多个字符串。

在 Python 中，正则表达式的功能由内置的 re 模块提供。该模块使 Python 语言拥有全部的正则表达式功能，并提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串作为它们的第一个参数。

正则表达式广泛应用于爬虫数据抓取、日志分析、表单校验、文本清洗等场景。

2 基本语法与核心函数

2.1 match 函数

re.match() 只从字符串的最开始与 pattern 进行匹配。如果字符串开头不匹配，即使后面有匹配内容也会返回 None。

语法：

re.match(pattern, string, flags=0)

参数说明：

pattern: 要匹配的正则表达式。
string: 被搜索用于匹配字符串开头的模式。
flags: 修饰符，可以使用按位 OR (|) 指定不同的标志，如 re.IGNORECASE。

返回值： 成功时返回匹配对象，失败时返回 None。使用 group() 或 groups() 获取匹配的表达式。

示例：

import re

# 未从初始位置匹配，会返回 None
line = 'i can speak good english'
matchObj = re.match(r'\s(\w*)\s(\w*).*', line)
if matchObj:
    print('matchObj.group() :', matchObj.group())
else:
    print('no match!')  # 输出：no match!

# 从初始位置开始匹配
matchObj = re.match(r'(i)\s(\w*)\s(\w*).*', line)
if matchObj:
    print('matchObj.group() :', matchObj.group())
    print('matchObj.group(1) :', matchObj.group(1))
    print('matchObj.group(2) :', matchObj.group())
    (, matchObj.group())

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

re.search(pattern, string, flags=0)

import re

line = 'i can speak good english'
matchObj = re.search('(.*) (.*?) (.*)', line)
if matchObj:
    print('matchObj.group() :', matchObj.group())
    print('matchObj.group(1) :', matchObj.group(1))
    print('matchObj.group(2) :', matchObj.group(2))
    print('matchObj.group(3) :', matchObj.group(3))
else:
    print('no match!')

re.sub(pattern, repl, string, count=0)

import re

line = 'i can speak good english'
speak = re.sub(r'can', 'not', line)
print(speak)  # 输出：i not speak good english

speak1 = re.sub(r'\s', '', line)  # 替换所有空格
print(speak1)  # 输出：ican speakgoodenglish

import re

line = 'abc123def456'
pattern = r'\d+'
matches = re.findall(pattern, line)
print(matches)  # 输出：['123', '456']

for match in re.finditer(pattern, line):
    print(match.group(), match.span())

import re

text = '<div>content</div>'
print(re.search('<.*>', text).group())   # 输出：<div>content</div>
print(re.search('<.*?>', text).group())  # 输出：<div>

import re

pattern = r'(\d{4})-(\d{2})-(\d{2})'
match = re.match(pattern, '2023-10-01')
print(match.group(1))  # 2023
print(match.groups())  # ('2023', '10', '01')

import re

print(re.match('^Hello', 'Hello World'))  # 匹配
print(re.search('World$', 'Hello World')) # 匹配

import re

pattern = re.compile(r'\d+')
result = pattern.findall('abc123def456')
print(result)  # ['123', '456']

import re

pattern = re.compile(r'^hello', re.I)
print(pattern.match('HELLO'))  # 匹配

Python 正则表达式基础与实战指南

1 前言

2 基本语法与核心函数

2.1 match 函数

更多推荐文章

相关免费在线工具

2.2 search 函数

2.3 sub 函数

2.4 findall 与 finditer

3 特殊类语法详解

3.1 字符类

3.2 预定义字符类

3.3 重复匹配量词

3.4 非贪婪匹配

3.5 分组与捕获

3.6 反向引用

3.7 锚点

3.8 编译正则表达式

4 常用标志位 (Flags)

5 最佳实践与注意事项

6 总结

更多推荐文章

相关免费在线工具

Python 正则表达式基础与实战指南

1 前言

2 基本语法与核心函数

2.1 match 函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 search 函数

2.3 sub 函数

2.4 findall 与 finditer

3 特殊类语法详解

3.1 字符类

3.2 预定义字符类

3.3 重复匹配量词

3.4 非贪婪匹配

3.5 分组与捕获

3.6 反向引用

3.7 锚点

3.8 编译正则表达式

4 常用标志位 (Flags)

5 最佳实践与注意事项

6 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具