Python算法

Python 模式匹配与高效正则表达式：从原理到工程实践

Python 模式匹配涵盖字符串匹配与结构化匹配。深入讲解 Python 正则表达式核心机制（re 模块、回溯引擎）、性能优化策略（防 ReDoS、原子分组）及 Python 3.10+ 结构化模式匹配（match-case）。结合日志解析、风控规则等实战案例，阐述正则与状态机、AST 的协作设计，提供从基础语法到工程级规则引擎构建的系统化方案，强调可维护性与高性能实践。

女王发布于 2026/2/8更新于 2026/5/317K 浏览

第一篇：模式匹配的本质与计算模型基础

本篇旨在建立理论基础。理解模式匹配在计算机科学中的定义，掌握字符串匹配与结构化匹配的差异，学习常见应用场景（如日志解析、编译器、ETL、风控规则系统），并了解 Python 模式匹配能力的演进脉络，为后续实践打下基础。

一、什么是模式匹配（Pattern Matching）

（一）模式匹配在计算机科学中的定义

模式匹配（Pattern Matching）本质上是一个判定问题：

给定一个输入对象 X，判断它是否满足某种结构或规则 P，若满足，则返回'匹配成功'及其结构化信息。

在工程中，这个对象通常是：

字符串（日志、协议、文本）
结构化数据（AST、JSON、对象）
状态序列（事件流）

抽象为一个函数签名就是：

def match(pattern, input) -> MatchResult | None: ...

关键不在于'是否匹配'，而在于：

是否能高效判定
是否能提取有用结构
是否可维护、可演进

（二）字符串匹配 vs 结构化匹配

1. 字符串匹配：线性输入上的规则识别

这是最常见、也最容易被滥用的匹配形式。

text = "ERROR 2024-01-01 user=alice timeout"
if "ERROR" in text:
    print("error log")

这是最原始的模式匹配：

模式：子串 "ERROR"
输入：字符串
返回：布尔值

升级为正则：

import re
pattern = re.compile(r"ERROR\s+(\d{4}-\d{2}-\d{2})\s+user=(\w+)")
m = pattern.search(text)
if m:
    date, user = m.groups()

特点：

输入是线性字符流
模式是字符级规则
引擎负责回溯 / 自动机执行

2. 结构化匹配：在'形状'上做判定

当输入不再是字符串，而是结构化数据时，继续用正则是灾难。

data = {
    "type": ,
    : ,
    : ,
    : 
}

Python算法

Python 模式匹配与高效正则表达式：从原理到工程实践

女王发布于 2026/2/8更新于 2026/5/317K 浏览

第一篇：模式匹配的本质与计算模型基础

一、什么是模式匹配（Pattern Matching）

（一）模式匹配在计算机科学中的定义

模式匹配（Pattern Matching）本质上是一个判定问题：

给定一个输入对象 X，判断它是否满足某种结构或规则 P，若满足，则返回'匹配成功'及其结构化信息。

在工程中，这个对象通常是：

字符串（日志、协议、文本）
结构化数据（AST、JSON、对象）
状态序列（事件流）

抽象为一个函数签名就是：

def match(pattern, input) -> MatchResult | None: ...

关键不在于'是否匹配'，而在于：

是否能高效判定
是否能提取有用结构
是否可维护、可演进

（二）字符串匹配 vs 结构化匹配

1. 字符串匹配：线性输入上的规则识别

这是最常见、也最容易被滥用的匹配形式。

text = "ERROR 2024-01-01 user=alice timeout"
if "ERROR" in text:
    print("error log")

这是最原始的模式匹配：

模式：子串 "ERROR"
输入：字符串
返回：布尔值

升级为正则：

import re
pattern = re.compile(r"ERROR\s+(\d{4}-\d{2}-\d{2})\s+user=(\w+)")
m = pattern.search(text)
if m:
    date, user = m.groups()

特点：

输入是线性字符流
模式是字符级规则
引擎负责回溯 / 自动机执行

2. 结构化匹配：在'形状'上做判定

当输入不再是字符串，而是结构化数据时，继续用正则是灾难。

data = {
    "type": ,
    : ,
    : ,
    : 
}

if (data.get("type") == "login" and data.get("success") is False and data.get("reason") == "timeout"):
    ...

match data:
    case {"type": "login", "success": False, "reason": "timeout", "user": user}:
        print(f"login timeout: {user}")

log = "INFO 2024-01-01T10:00:00 user=alice action=login"
pattern = re.compile(
    r"(?P<level>INFO|ERROR)\s+"
    r"(?P<ts>\S+)\s+"
    r"user=(?P<user>\w+)\s+"
    r"action=(?P<action>\w+)"
)
m = pattern.match(log)
if m:
    record = m.groupdict()
    print(record)
# {'level': 'INFO', 'ts': '2024-01-01T10:00:00', 'user': 'alice', 'action': 'login'}

token_spec = [
    ("NUMBER", r"\d+"),
    ("PLUS", r"\+"),
    ("MINUS", r"-"),
    ("WS", r"\s+"),
]
master = re.compile(
    "|".join(f"(?P<{name}>{pat})" for name, pat in token_spec)
)

def normalize_phone(s: str) -> str | None:
    m = re.search(r"(\+?\d{1,3})?[-\s]?(\d{10})", s)
    if not m:
        return None
    country, number = m.groups()
    return f"{country or '+86'}{number}"

if re.search(r"(?=.*loan)(?=.*overdue)(?=.*blacklist)", text):
    ...

s.startswith("ERROR")
s.endswith(".log")
"timeout" in s

re.search(r"(ERROR|WARN)\s+\d+", s)

match event:
    case {"type": "error", "code": int(code)} if code >= 500:
        ...

层级	能力	典型工具
正则语言	线性、无嵌套	正则表达式
上下文无关语言	可递归嵌套	解析器
上下文相关语言	语义依赖	编译器

aaaa abab abc123 key=value

import re
re.fullmatch(r"(ab)*", "abab")  # OK
re.fullmatch(r"\d{4}-\d{2}-\d{2}", "2024-01-01")  # OK

( ( ) ) { { { } } }
if (a) { if (b) { } }

r"\((?:[^()]+|\([^()]*\))*\)"

r"(a+)+b"

"aaaaaaaaaaaa"

import re
import time
pattern = re.compile(r"(a+)+b")
s = "a" * 25  # 谨慎调大
start = time.time()
pattern.match(s)
print(time.time() - start)  # 1.129573106765747

r"(.*)(.*)(.*)"

r"(?:(?<=foo)|(?<!bar))(baz|qux)(?=end)"

import re
pattern = re.compile(r"(\d+)-(\w+)")  # pattern 内部已经是'编译后的指令序列'
m = pattern.match("123-abc")

import re
pattern = re.compile(r"(a|aa)b")
inputs = ["ab", "aab", "aaab"]
for s in inputs:
    m = pattern.match(s)
    print(s, "->", m)

输入：aaab
尝试路径 1: a -> b ? fail
回溯到分支：aa -> b ? fail
无更多分支 -> no match

import re
p = re.compile(r"(\d{2,3})-(\w+)")
m = p.match("123-abc")
if m:
    print("捕获组:", m.groups())

捕获组：('123', 'abc')

import time
pattern_str = r"\d{4}-\d{2}-\d{2}"
text = "2024-01-01" * 10000

# 不使用 compile
start = time.time()
for t in text.split():
    re.match(pattern_str, t)
print("无 compile:", time.time() - start)

# 使用 compile
compiled = re.compile(pattern_str)
start = time.time()
for t in text.split():
    compiled.match(t)
print("使用 compile:", time.time() - start)

import re
pattern = re.compile(r"[a-zA-Z]\d{2}")
tests = ["A12", "b99", "Z0", "123"]
for t in tests:
    print(t, "->", bool(pattern.fullmatch(t)))

A12 -> True
b99 -> True
Z0 -> False
123 -> False

量词	贪婪	非贪婪	描述
`*`	是	`*?`	匹配 0 或多次
`+`	是	`+?`	匹配 1 或多次
`?`	是	`??`	匹配 0 或 1 次
`{m,n}`	是	`{m,n}?`	匹配 m~n 次

text = "<tag>content</tag>"
import re
greedy = re.search(r"<.*>", text)
nongreedy = re.search(r"<.*?>", text)
print("贪婪:", greedy.group())
print("非贪婪:", nongreedy.group())

贪婪：<tag>content</tag>
非贪婪：<tag>

pattern1 = re.compile(r"(\d+)-(\w+)")
pattern2 = re.compile(r"(?:\d+)-(?:\w+)")
import time
s = "123-abc" * 100000
start = time.time()
pattern1.match(s)
print("捕获组:", time.time() - start)
start = time.time()
pattern2.match(s)
print("非捕获组:", time.time() - start)

捕获组：9.5367431640625e-07
非捕获组：9.5367431640625e-07

锚点	含义	示例
`^`	行/字符串开头	`^ERROR`
`$`	行/字符串结尾	`end$`
`\b`	单词边界	`\bword\b`
`\B`	非单词边界	`\Bend\B`

text = "hello world\nhello python"
print(re.findall(r"^hello", text))  # 默认行首
print(re.findall(r"^hello", text, re.MULTILINE))  # 多行匹配

类型	语法	示例
正前瞻	`(?=...)`	`\d(?=\w)` 匹配数字，但后面必须是字母
负前瞻	`(?!...)`	`\d(?<!\w)` 匹配数字，但后面不是字母
正后顾	`(?<=...)`	`(?<=\$)\d+` 匹配前面是 `$` 的数字
负后顾	`(?<!...)`	`(?<!\$)\d+` 匹配前面不是 `$` 的数字

import re
text = "apple123 banana456 cherry789"
# 匹配数字前面是字母的数字
pattern = re.compile(r"\d+(?=\s)")
matches = pattern.findall(text)
print("正前瞻:", matches)  # ['123', '456', '789']

# 匹配数字前面不是字母的数字
pattern2 = re.compile(r"\d+(?!\w)")
matches2 = pattern2.findall(text)
print("负前瞻:", matches2)  # ['123', '456', '789']

text = "$100 200 $300"
# 匹配前面有 $ 的数字
pattern = re.compile(r"(?<=\$)\d+")
matches = pattern.findall(text)
print("正后顾:", matches)  # ['100', '300']

# 匹配前面不是 $ 的数字
pattern2 = re.compile(r"(?<!\$)\d+")
matches2 = pattern2.findall(text)
print("负后顾:", matches2)  # ['200']

(?P<name>...)
(?P=name)  # 引用捕获组

text = "Name: Alice, Age: 30"
pattern = re.compile(r"Name: (?P<name>\w+), Age: (?P<age>\d+)")
m = pattern.search(text)
if m:
    print(m.groupdict())  # {'name': 'Alice', 'age': '30'}

text = "abc abc"
pattern = re.compile(r"(?P<word>\w+)\s+(?P=word)")
m = pattern.search(text)
print(m.groupdict())  # {'word': 'abc'}

(?(id/name)yes-pattern|no-pattern)

text = "foo123"  # 或 "123"
pattern = re.compile(r"(foo)?(?(1)\d{3}|[a-z]{3})")
print(pattern.match(text))  # 匹配 foo123

标志	含义
`re.MULTILINE`	`^`、`$` 匹配行首/行尾
`re.DOTALL`	`.` 匹配包括换行在内的所有字符
`re.IGNORECASE`	忽略大小写
`re.VERBOSE`	支持空格和注释，增强可读性

pattern = re.compile(r"""
    (?P<date>\d{4}-\d{2}-\d{2})  # 日期
    \s+
    (?P<level>INFO|WARN|ERROR)  # 日志级别
    \s+
    (?P<msg>.+)  # 消息
""", re.VERBOSE | re.MULTILINE)
text = "2024-01-01 INFO Started\n2024-01-01 ERROR Failed"
for m in pattern.finditer(text):
    print(m.groupdict())

{'date': '2024-01-01', 'level': 'INFO', 'msg': 'Started'}
{'date': '2024-01-01', 'level': 'ERROR', 'msg': 'Failed'}

import re
import time
pattern = re.compile(r"(a+)+b")  # 回溯陷阱
s = "a" * 25 + "b"
start = time.time()
m = pattern.match(s)
end = time.time()
print("匹配耗时:", end - start)

输入：a a a b
模式：(a+)+ b
1. 外层 + 尝试 3 a
   内层 + 尝试 3 a → b ? fail
   内层回退 → 尝试 2 a, 外层剩 1 a → b ? fail
...
匹配树分支迅速爆炸

pattern = re.compile(r"(a|aa)+b")
s = "aaaaaaaaaaaaab"
pattern.match(s)  # 指令执行路径数指数级

pattern = re.compile(r".*end")
text = "a" * 10000 + "end"
pattern.match(text)  # 贪婪 .* 吃尽 → 回溯找 end

pattern = re.compile(r"(ab?)+c")
text = "abababababababababababc"
pattern.match(text)

import re
import time
pattern = re.compile(r"(a+)+$")
evil_input = "a" * 30
start = time.time()
pattern.match(evil_input)
print("匹配耗时:", time.time() - start)

问题类型	本质原因	对策
指数回溯	贪婪量词嵌套 + 分支	拆分正则 / 原子化 / 限制量词
不明确边界	*`.` 无边界**	明确锚点，使用限定字符类
可选分支过多	`(a	aa
用户输入攻击	回溯爆炸	输入长度限制、DFA 风格引擎

import re
text = "INFO 2024-01-01 User login"
# 低效写法
pattern = re.compile(r".*User.*login")
print(bool(pattern.match(text)))
# 高效写法（先匹配固定前缀）
pattern_fast = re.compile(r"INFO.*User.*login")
print(bool(pattern_fast.match(text)))

text = "2024-01-01 ERROR Something failed"
# 边界不明确
pattern1 = re.compile(r".*ERROR.*")
# 明确边界
pattern2 = re.compile(r"^2024-01-01 ERROR")
print(bool(pattern1.match(text)))  # True
print(bool(pattern2.match(text)))  # True

# 高风险
re.compile(r"(a+)+b")
# 安全
re.compile(r"(a{1,10}){1,5}b")

# 捕获组增加存储
re.compile(r"(\d+)-(\w+)")
# 非捕获组
re.compile(r"(?:\d+)-(?:\w+)")

pattern = re.compile(r"(\d{4}-\d{2}-\d{2})\s+(INFO|WARN|ERROR)\s+(.+)")

date_pat = re.compile(r"\d{4}-\d{2}-\d{2}")
level_pat = re.compile(r"INFO|WARN|ERROR")
for line in logs:
    date_match = date_pat.match(line)
    if not date_match:
        continue
    level_match = level_pat.search(line)
    if not level_match:
        continue
    message = line[level_match.end():]

设计原则	原理依据	工程体现
先失败 (Fail Fast)	回溯路径剪枝，早期排除失败	先匹配固定前缀或确定条件
明确边界	削减回溯树状态空间	使用 `^` / `$` / 字符类
限定回溯空间	回溯树大小决定匹配耗时	限定量词、非捕获组
拆分正则	巨型正则回溯风险指数级	多个小正则，序列化匹配

import re
# 经典易回溯
pattern = re.compile(r"(a+)+b")
# 模拟原子分组：使用非捕获组 + 前瞻断言
pattern_safe = re.compile(r"(?:a+)(?=b)")
text = "aaaaaaaaaaaaab"
print(bool(pattern.match(text)))  # 可能慢，回溯多
print(bool(pattern_safe.match(text)))  # 安全，高效

特性	re	regex
支持占有量词	❌	✅
支持可变长度后顾	❌	✅
支持递归匹配	❌	✅
性能	中等	高，可选 DFA 优化

import regex
pattern = regex.compile(r"(a+)+b")
text = "aaaaaaaaaaaaab"
# regex 支持占有量词
pattern_possessive = regex.compile(r"(a++)b")
print(pattern_possessive.match(text))  # 高效匹配，无回溯

import re, time
pattern_str = r"\d{4}-\d{2}-\d{2}"
text_list = ["2024-01-01", "2024-01-02"] * 100000

# 不使用 compile
start = time.time()
for t in text_list:
    re.match(pattern_str, t)
print("不使用 compile:", time.time() - start)

# 使用 compile
compiled = re.compile(pattern_str)
start = time.time()
for t in text_list:
    compiled.match(t)
print("使用 compile:", time.time() - start)

import re
pattern = re.compile(r"\d{4}-\d{2}-\d{2}")
with open("big_log.txt") as f:
    for line in f:
        m = pattern.search(line)
        if m:
            print(m.group())

优化策略	原理依据	示例与实践
原子分组 / 占有量词	削减回溯树	`(?:a+)(?=b)` / `regex` 支持 `a++`
编译缓存	避免重复解析字节码	`compiled = re.compile(r"\d{4}-\d{2}-\d{2}")`
批量匹配 / 流式处理	控制内存与回溯	按行匹配日志 → 减少一次性回溯
第三方库替代	DFA / 占有量词 / 可变后顾	`regex` 高性能匹配复杂模式
拆分复杂正则	回溯路径控制	多阶段匹配 → 先匹配确定条件 → 再匹配模糊内容

if isinstance(obj, dict) and "type" in obj:
    if obj["type"] == "A":
        handle_a(obj)
    elif obj["type"] == "B":
        handle_b(obj)

def handle_event(event):
    if isinstance(event, dict) and event.get("type") == "login":
        print("Login event:", event)
    elif isinstance(event, dict) and event.get("type") == "logout":
        print("Logout event:", event)

def handle_event(event):
    match event:
        case {"type": "login", "user": user}:
            print("Login event:", user)
        case {"type": "logout", "user": user}:
            print("Logout event:", user)

特性	if-elif	match-case
结构匹配	手动提取	内置字典/序列匹配
可读性	嵌套多，复杂	扁平化，模式清晰
绑定变量	需要手动	自动绑定（`user`）
扩展性	逐分支添加	新模式直接添加 case

match point:
    case (0, 0): print("Origin")
    case (x, 0): print(f"X-axis at {x}")
    case (0, y): print(f"Y-axis at {y}")
    case (x, y): print(f"Point at ({x}, {y})")

match value:
    case int() as i if i > 0: print("Positive integer:", i)
    case int() as i if i < 0: print("Negative integer:", i)

def response(code):
    match code:
        case 200: return "OK"
        case 404: return "Not Found"
        case 500: return "Server Error"
        case _: return "Unknown"

print(response(200))  # OK
print(response(403))  # Unknown

point = (0, 5)
match point:
    case (0, y): print(f"X=0, Y={y}")
    case (x, 0): print(f"Y=0, X={x}")
    case (x, y): print(f"Point at ({x},{y})")

X=0, Y=5

lst = [1, 2, 3, 4]
match lst:
    case [first, *middle, last]: print(first, middle, last)  # 1 [2, 3] 4

event = {"type": "login", "user": "Alice"}
match event:
    case {"type": "login", "user": user}: print("Login:", user)
    case {"type": "logout", "user": user}: print("Logout:", user)

Login: Alice

class Point:
    __match_args__ = ("x", "y")
    def __init__(self, x, y):
        self.x = x
        self.y = y

p = Point(0, 5)
match p:
    case Point(0, y): print(f"X=0, Y={y}")
    case Point(x, 0): print(f"Y=0, X={x}")

X=0, Y=5

match (1, 2, 3):
    case (1, _, 3): print("Matched first and last")

Matched first and last

x = 15
match x:
    case int() as i if i > 0: print("Positive:", i)
    case int() as i if i < 0: print("Negative:", i)

Positive: 15

import re
log = "2025-12-20 16:00 ERROR User 'Alice' failed login"
# Step 1: 正则提取
pattern = re.compile(r"(?P<date>\d{4}-\d{2}-\d{2}) (?P<time>\d{2}:\d{2}) (?P<level>\w+) User '(?P<user>\w+)' (?P<action>.+)"
)
m = pattern.match(log)
if m:
    data = m.groupdict()
    # Step 2: match-case 处理
    match data:
        case {"level": "ERROR", "action": "failed login", "user": user}:
            print(f"Alert! User {user} failed login at {data['time']}")
        case {"level": "INFO"}:
            print("Info log")

Alert! User Alice failed login at 16:00

import re
expr = "x + 3"
# Step 1: 正则拆解
pattern = re.compile(r"(?P<left>\w+)\s*(?P<op>[+-/*])\s*(?P<right>\w+)")
m = pattern.match(expr)
if m:
    node = m.groupdict()
    # Step 2: match-case AST 处理
    match node:
        case {"op": "+", "left": left, "right": right}: print(f"Addition: {left} + {right}")
        case {"op": "-", "left": left, "right": right}: print(f"Subtraction: {left} - {right}")

Addition: x + 3

state = 0
for log in logs:
    if state == 0 and "login" in log:
        state = 1
    elif state == 1 and "action" in log:
        # process action
        state = 2

import re
logs = [
    "User Alice login",
    "User Alice failed action",
    "User Bob login",
]
state = 0
pattern = re.compile(r"User (?P<user>\w+) (?P<action>\w+)")
for log in logs:
    m = pattern.match(log)
    if not m:
        continue
    event = m.groupdict()
    match (state, event):
        case (0, {"action": "login", "user": user}): print(f"{user} logged in")
        state = 1
        case (1, {"action": "failed", "user": user}): print(f"{user} failed action")
        state = 2
        case _: print(f"Unhandled event: {event}")

Alice logged in
Alice failed action
Unhandled event: {'user': 'Bob', 'action': 'login'}

log = "2025-12-20 ERROR File 'config.yaml' not found"
pattern = re.compile(
    r"(?P<date>\d{4}-\d{2}-\d{2}) (?P<level>\w+) File '(?P<file>[^']+)' (?P<message>.+)"
)
m = pattern.match(log)
if m:
    data = m.groupdict()
    match data:
        case {"level": "ERROR", "file": "config.yaml"}: print("Config file error")
        case {"level": "ERROR"}: print("Other error")
        case {"level": "INFO"}: print("Info log")

Config file error

import re
line = "2025-12-20 ERROR User Alice failed login"
pattern = re.compile(r"(?P<date>\d{4}-\d{2}-\d{2}) (?P<level>\w+) User (?P<user>\w+) (?P<action>.+)"
)
m = pattern.match(line)
if m:
    print(m.groupdict())

{'date': '2025-12-20', 'level': 'ERROR', 'user': 'Alice', 'action': 'failed login'}

问题	原因	示例
嵌套语法	正则不支持递归匹配	匹配括号嵌套 `(a(b(c)))`
上下文依赖	回溯型正则无法处理动态状态	根据前文内容匹配不同规则
可读性	复杂正则难维护	`(a+)+b(c
性能	回溯爆炸	`(a+)+b` 大量重复

def parse_parentheses(s):
    stack = []
    max_depth = 0
    for c in s:
        if c == '(':
            stack.append(c)
            max_depth = max(max_depth, len(stack))
        elif c == ')':
            if not stack:
                raise ValueError("Unmatched closing parenthesis")
            stack.pop()
    if stack:
        raise ValueError("Unmatched opening parenthesis")
    return max_depth

expr = "(a+(b+c)*(d+e))"
print(parse_parentheses(expr))  # 3

import re
token_pattern = re.compile(r"\s*(?P<num>\d+)|(?P<op>[+*/-])|(?P<var>\w+)")

def tokenize(expr):
    for m in token_pattern.finditer(expr):
        if m.group("num"):
            yield ("NUM", int(m.group("num")))
        elif m.group("op"):
            yield ("OP", m.group("op"))
        elif m.group("var"):
            yield ("VAR", m.group("var"))

expr = "x + 3 * y"
tokens = list(tokenize(expr))
print(tokens)

[('VAR', 'x'), ('OP', '+'), ('NUM', 3), ('OP', '*'), ('VAR', 'y')]

[INFO] 2025-12-20 User Alice login
[ERROR] 2025-12-20 User Bob failed action

import re
log_pattern = re.compile(r"\[(?P<level>\w+)\]\s+(?P<date>\d{4}-\d{2}-\d{2}) User (?P<user>\w+) (?P<action>.+)"
)

def parse_logs(logs):
    for line in logs:
        m = log_pattern.match(line)
        if not m:
            continue
        data = m.groupdict()
        # match-case 处理逻辑
        match data:
            case {"level": "INFO", "action": "login", "user": user}:
                print(f"{data['date']}: {user} logged in")
            case {"level": "ERROR"}:
                print(f"{data['date']}: ERROR for {data['user']} -> {data['action']}")

logs = [
    "[INFO] 2025-12-20 User Alice login",
    "[ERROR] 2025-12-20 User Bob failed action",
]
parse_logs(logs)

2025-12-20: Alice logged in
2025-12-20: ERROR for Bob -> failed action

import re
# Step 1: 正则抽取
log_pattern = re.compile(
    r"\[(?P<level>\w+)\]\s+(?P<date>\d{4}-\d{2}-\d{2}) User (?P<user>\w+) (?P<action>.+)"
)
logs = [
    "[INFO] 2025-12-20 User Alice login",
    "[ERROR] 2025-12-20 User Bob failed action",
    "[WARN] 2025-12-20 User Charlie password attempt",
]
for line in logs:
    m = log_pattern.match(line)
    if not m:
        continue
    data = m.groupdict()
    # Step 2: match-case 结构化处理
    match data:
        case {"level": "INFO", "action": "login", "user": user}:
            print(f"{data['date']}: {user} logged in")
        case {"level": "ERROR"}:
            print(f"{data['date']}: ERROR -> {data['user']} -> {data['action']}")
        case {"level": "WARN"}:
            print(f"{data['date']}: Warning -> {data['user']} -> {data['action']}")

2025-12-20: Alice logged in
2025-12-20: ERROR -> Bob -> failed action
2025-12-20: Warning -> Charlie -> password attempt

rules = [
    {"type": "login", "action": "failed", "severity": "high"},
    {"type": "transaction", "amount": lambda x: x > 10000, "severity": "medium"},
]
events = [
    {"type": "login", "action": "failed", "user": "Alice"},
    {"type": "transaction", "amount": 15000, "user": "Bob"},
]
for event in events:
    for rule in rules:
        match (event, rule):
            case ({"type": etype, **edata}, {"type": rtype, "action": raction, **_}):
                if etype == rtype and edata.get("action") == raction:
                    print(f"Trigger high severity alert for {edata.get('user')}")
            case ({"type": "transaction", "amount": amt, **edata}, {"amount": cond, **_}):
                if cond(amt):
                    print(f"Trigger medium severity alert for {edata.get('user')}")

Trigger high severity alert for Alice
Trigger medium severity alert for Bob

IF level == "ERROR" AND action contains "failed" THEN alert HIGH
IF level == "WARN" THEN alert MEDIUM

dsl_rules = [
    {"conditions": [{"field": "level", "op": "==", "value": "ERROR"}, {"field": "action", "op": "contains", "value": "failed"}], "alert": "HIGH"},
    {"conditions": [{"field": "level", "op": "==", "value": "WARN"}], "alert": "MEDIUM"}
]
events = [
    {"level": "ERROR", "action": "failed login", "user": "Alice"},
    {"level": "WARN", "action": "password attempt", "user": "Charlie"}
]

def match_rule(event, rule):
    for cond in rule["conditions"]:
        val = event.get(cond["field"])
        if cond["op"] == "==" and val != cond["value"]:
            return False
        if cond["op"] == "contains" and cond["value"] not in val:
            return False
    return True

for event in events:
    for rule in dsl_rules:
        if match_rule(event, rule):
            print(f"{event['user']} triggers {rule['alert']} alert")

Alice triggers HIGH alert
Charlie triggers MEDIUM alert

import re
# 匹配日期 YYYY-MM-DD
DATE_PATTERN = re.compile(r"\d{4}-\d{2}-\d{2}")
# 匹配日志级别
LOG_LEVEL_PATTERN = re.compile(r"\[(?P<level>\w+)\]")

# DATE_PATTERN: 匹配格式为 YYYY-MM-DD 的日期字符串
# 示例：'2025-12-20' -> 匹配成功
# 注意：不处理非法日期，如 2025-13-40
DATE_PATTERN = re.compile(r"\d{4}-\d{2}-\d{2}")

import unittest
import re
DATE_PATTERN = re.compile(r"\d{4}-\d{2}-\d{2}")

class TestPatterns(unittest.TestCase):
    def test_date_valid(self):
        self.assertTrue(DATE_PATTERN.fullmatch("2025-12-20"))
        self.assertTrue(DATE_PATTERN.fullmatch("1999-01-01"))

    def test_date_invalid(self):
        self.assertIsNone(DATE_PATTERN.fullmatch("2025-13-40"))
        self.assertIsNone(DATE_PATTERN.fullmatch("20251220"))

if __name__ == "__main__":
    unittest.main()

LOG_PATTERN = re.compile(r"\[(?P<level>\w+)\] (?P<message>.+)"
)

class TestLogPattern(unittest.TestCase):
    def test_existing_logs(self):
        old_logs = [
            "[INFO] System started",
            "[ERROR] Failed login attempt",
        ]
        for log in old_logs:
            self.assertIsNotNone(LOG_PATTERN.match(log))

if __name__ == "__main__":
    unittest.main()

DATE_PATTERN_V1 = re.compile(r"\d{4}-\d{2}-\d{2}")
DATE_PATTERN_V2 = re.compile(r"\d{4}-\d{2}-\d{2}(?: \d{2}:\d{2})?")

# DATE_PATTERN_V2: 匹配 YYYY-MM-DD 或 YYYY-MM-DD HH:MM
# 更新日期：2025-12-20

# patterns/__init__.py
from .date import DATE_PATTERN_V1, DATE_PATTERN_V2
from .log import LOG_PATTERN_V1, LOG_PATTERN_V2

import re
USER_ACTION_PATTERN = re.compile(r"User (?P<user>\w+) (?P<action>\w+)")

def parse_user_action(line: str):
    """解析用户操作日志，返回字典"""
    m = USER_ACTION_PATTERN.match(line)
    if m:
        return m.groupdict()
    return None

# 使用示例
log = "User Alice login"
print(parse_user_action(log))  # {'user': 'Alice', 'action': 'login'}

# 规则配置
LOG_RULES = [
    {"pattern": re.compile(r"\[ERROR\] (?P<msg>.+)"), "alert": "HIGH"},
    {"pattern": re.compile(r"\[WARN\] (?P<msg>.+)"), "alert": "MEDIUM"},
]

def process_log(line: str):
    for rule in LOG_RULES:
        m = rule["pattern"].match(line)
        if m:
            return rule["alert"], m.groupdict()
    return None, None

# 使用示例
line = "[ERROR] Disk full"
alert, data = process_log(line)
print(alert, data)  # HIGH {'msg': 'Disk full'}

import re
LOG_PATTERN = re.compile(
    r"\[(?P<level>\w+)\] (?P<date>\d{4}-\d{2}-\d{2}) (?P<user>\w+) (?P<action>.+)"
)
logs = [
    "[INFO] 2025-12-20 Alice login",
    "[ERROR] 2025-12-20 Bob failed action",
    "[WARN] 2025-12-20 Charlie password attempt",
]

def parse_logs(logs):
    results = []
    for line in logs:
        m = LOG_PATTERN.match(line)
        if not m:
            continue
        data = m.groupdict()
        # match-case 处理逻辑
        match data:
            case {"level": "INFO", "action": "login", "user": user}:
                results.append((user, "INFO_LOGIN"))
            case {"level": "ERROR"}:
                results.append((data["user"], "ERROR"))
            case {"level": "WARN"}:
                results.append((data["user"], "WARN"))
    return results

print(parse_logs(logs))

[('Alice', 'INFO_LOGIN'), ('Bob', 'ERROR'), ('Charlie', 'WARN')]

import re
from urllib.parse import urlparse, parse_qs
urls = [
    "https://example.com/product?id=123&ref=google",
    "http://shop.test.com/cart?item=456"
]
URL_PATTERN = re.compile(r"https?://(?P<host>[^/]+)(?P<path>/[^?]*)\??(?P<query>.*)"
)
for url in urls:
    m = URL_PATTERN.match(url)
    if m:
        data = m.groupdict()
        query_params = parse_qs(data['query'])
        print(f"Host: {data['host']}, Path: {data['path']}, Query: {query_params}")

Host: example.com, Path: /product, Query: {'id': ['123'], 'ref': ['google']}
Host: shop.test.com, Path: /cart, Query: {'item': ['456']}

UA_LIST = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/117.0",
    "Mozilla/5.0 (iPhone; CPU iPhone OS 16_5 like Mac OS X) Safari/605.1"
]
UA_PATTERN = re.compile(r".*\((?P<platform>[^)]+)\).* (?P<browser>\w+)/[\d\.]+"
)
for ua in UA_LIST:
    m = UA_PATTERN.match(ua)
    if m:
        match m.groupdict():
            case {"platform": platform, "browser": browser}: print(f"Platform: {platform}, Browser: {browser}")

Platform: Windows NT 10.0; Win64; x64, Browser: Chrome
Platform: iPhone; CPU iPhone OS 16_5 like Mac OS X, Browser: Safari

import re
transactions = [
    "2025-12-20 Alice transferred $500 to Bob",
    "2025-12-21 Charlie deposited $1200",
]
TX_PATTERN = re.compile(
    r"(?P<date>\d{4}-\d{2}-\d{2}) (?P<user>\w+) (?P<action>\w+) \$(?P<amount>\d+)( to (?P<target>\w+))?"
)
for tx in transactions:
    m = TX_PATTERN.match(tx)
    if m:
        data = m.groupdict()
        match data:
            case {"action": "transferred", "user": user, "amount": amount, "target": target}: print(f"{user} transferred ${amount} to {target}")
            case {"action": "deposited", "user": user, "amount": amount}: print(f"{user} deposited ${amount}")

Alice transferred $500 to Bob
Charlie deposited $1200

import re
# 想用一条正则匹配日期、时间、用户、操作
pattern = re.compile(r"(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}) (\w+) (\w+) (\w+)")
log = "2025-12-20 16:00 Alice login success"
m = pattern.match(log)
if m:
    print(m.groups())

import re
DATE_PATTERN = re.compile(r"\d{4}-\d{2}-\d{2}")
TIME_PATTERN = re.compile(r"\d{2}:\d{2}")
USER_PATTERN = re.compile(r"\w+")
ACTION_PATTERN = re.compile(r"\w+")

log = "2025-12-20 16:00 Alice login success"
date = DATE_PATTERN.match(log[:10]).group()
time = TIME_PATTERN.match(log[11:16]).group()
user = USER_PATTERN.match(log[17:22]).group()
action = ACTION_PATTERN.match(log[23:]).group()
print(date, time, user, action)

import re
pattern = re.compile(r"(.*)-(.*)-(.*)-(.*)"
)
m = pattern.match("2025-12-20-Alice-login")
print(m.groups())

import re
pattern = re.compile(r"(?P<date>\d{4}-\d{2}-\d{2})-(?:.*-)?(?P<user>\w+)-.*"
)
m = pattern.match("2025-12-20-Alice-login")
print(m.groupdict())

import re
import time
pattern = re.compile(r"(a+)+b")
text = "a" * 30 + "c"  # 不匹配
start = time.time()
m = pattern.match(text)
end = time.time()
print("Time:", end - start)

import regex
# 第三方库
pattern = regex.compile(r"(?:a+)+b")  # 原子非捕获组

import re
pattern = re.compile(r"(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}) (\w+) (\w+).*"
)

import re
pattern = re.compile(r"""
    (?P<date>\d{4}-\d{2}-\d{2})  # 日期 YYYY-MM-DD
    \s+
    (?P<time>\d{2}:\d{2})  # 时间 HH:MM
    \s+
    (?P<user>\w+)  # 用户名
    \s+
    (?P<action>\w+)  # 操作类型
""", re.VERBOSE)

反模式	风险/问题	改进策略
一条正则解决一切	可读性差、维护困难	拆分正则，分层处理
过度捕获	占用内存、无用组	使用非捕获组 `(?:...)`，命名捕获组
隐式回溯陷阱	性能爆炸，可能被 ReDoS 攻击	限定量词，拆分复杂正则，使用原子分组
可读性灾难	维护困难，团队协作受影响	`re.VERBOSE` 多行 + 注释，清晰命名
正则散落业务逻辑中	难测试、难复用	封装成函数或规则库
忽略边界条件或异常输入	匹配失败或异常	单元测试、回归测试覆盖正向和反向情况

import re
TOKEN_PATTERN = re.compile(r"\s*(?P<NUMBER>\d+)|(?P<PLUS>\+)|(?P<MINUS>-)")
tokens = list(TOKEN_PATTERN.finditer("12 + 24 - 5"))
for t in tokens:
    print(t.lastgroup, t.group())

# 示例：解析简单加减表达式，构建 AST
# token -> AST 解析器略示意

from lark import Lark, Transformer
grammar = """
    ?start: sum
    ?sum: product | sum "+" product -> add | sum "-" product -> sub
    ?product: NUMBER
    %import common.NUMBER
    %import common.WS
    %ignore WS
"""

class CalcTransformer(Transformer):
    def add(self, items): return items[0] + items[1]
    def sub(self, items): return items[0] - items[1]
    def NUMBER(self, n): return int(n)

parser = Lark(grammar, parser='lalr', transformer=CalcTransformer())
result = parser.parse("3 + 5 - 2")
print(result)  # 6

rules = [
    {"type": "login", "action": "failed", "alert": "HIGH"},
    {"type": "transaction", "amount": lambda x: x > 10000, "alert": "MEDIUM"},
]
events = [
    {"type": "login", "action": "failed", "user": "Alice"},
    {"type": "transaction", "amount": 15000, "user": "Bob"},
]
for event in events:
    for rule in rules:
        match (event, rule):
            case ({"type": etype, **edata}, {"type": rtype, "action": raction, **_}):
                if etype == rtype and edata.get("action") == raction:
                    print(f"{edata['user']} triggers {rule['alert']} alert")
            case ({"type": "transaction", "amount": amt, **edata}, {"amount": cond, **_}):
                if cond(amt):
                    print(f"{edata['user']} triggers {rule['alert']} alert")

阶段	技术/方法	工程实践
初级	Python 正则、match-case	日志解析、URL 提取、User-Agent 分类
中级	状态机 + 手写解析器	DSL 解析、规则引擎、嵌套文本处理
高级	PEG / Lark / ANTLR	支持递归规则、AST、复杂语言解析
终极	自定义规则引擎	Tokenize → Parse → Match → Execute，高性能、可维护、可扩展

Python 模式匹配与高效正则表达式：从原理到工程实践

第一篇：模式匹配的本质与计算模型基础

一、什么是模式匹配（Pattern Matching）

（一）模式匹配在计算机科学中的定义

（二）字符串匹配 vs 结构化匹配

1. 字符串匹配：线性输入上的规则识别

2. 结构化匹配：在'形状'上做判定

Python 模式匹配与高效正则表达式：从原理到工程实践

第一篇：模式匹配的本质与计算模型基础

一、什么是模式匹配（Pattern Matching）

（一）模式匹配在计算机科学中的定义

（二）字符串匹配 vs 结构化匹配

1. 字符串匹配：线性输入上的规则识别

2. 结构化匹配：在'形状'上做判定

（三）典型应用场景全景图

1. 日志解析

2. 编译器 / 解释器

3. 数据清洗与 ETL

4. 风控规则 / 策略系统

（四）Python 中模式匹配能力的演进脉络

阶段一：字符串 API

阶段二：正则表达式（re）

阶段三：结构化模式匹配（PEP 634）

二、形式语言与自动机基础

（一）正则语言、上下文无关语言的边界

1. 形式语言的最低限度认知

2. 正则语言能做什么

3. 正则语言不能做什么

（二）DFA / NFA 的核心思想（直观理解）

1. 自动机不是学术概念，而是执行模型

2. DFA（确定有限自动机）

3. NFA（非确定有限自动机）

4. Python 使用的是哪种？

（三）回溯型正则 vs 自动机正则

1. 回溯引擎的直觉模型

2. 用代码感受'路径爆炸'

3. DFA 风格的正则为什么快

（四）为什么'正则不是万能的'

1. 能力边界

2. 性能边界

3. 可维护性边界

4. 三条工程级认知

第二篇：Python 正则表达式核心机制

一、Python 正则引擎的工作原理

（一）CPython re 模块架构概览

（二）回溯引擎（Backtracking Engine）详解

1. 核心思想

2. 逐字符匹配流程拆解

（三）re.compile 的真实价值

1. 单次解析 vs 多次复用

2. 内部存储形式

二、正则表达式语法的'工程级理解'

（一）字符类、量词、分组的内部行为

1. 字符类 [abc] 与 \d、\w

2. 量词：* / + / ? / {m,n}

3. 捕获组 (…) vs 非捕获组 (?:…)

（二）边界锚点的正确使用

（三）总结与工程实践建议

三、高级正则语法与隐藏能力

（一）前瞻 / 后顾断言（Lookaround）

1. 前瞻示例

2. 后顾示例

（二）命名分组与结构化提取

1. 基本语法

2. 命名组引用示例

（三）条件表达式

（四）多行 / DOTALL / VERBOSE 模式组合设计

1. 常用模式标志

2. 组合示例

（五）工程注意事项

第三篇：高性能正则表达式设计与优化

一、正则表达式性能问题的根源

（一）指数级回溯（Catastrophic Backtracking）

1. 回溯机制复盘

2. 简单指数级示例

3. 可视化匹配树

（二）常见性能灾难案例拆解

1. 贪婪量词嵌套

2. 不明确边界

3. 可选分支组合

1. 字符类 `[abc]` 与 `\d`、`\w`

2. 量词：`*` / `+` / `?` / `{m,n}`

3. 捕获组 `(…)` vs 非捕获组 `(?:…)`

（五）通配符 `_` 与守卫条件（Guard）

1. 通配符 `_`