【Python爬虫实战】正则：中文匹配与贪婪非贪婪模式详解

正则表达式是一种强大的工具，可以帮助我们在文本处理中灵活高效地匹配、查找、替换各种字符和字符串模式。对于中文字符的处理，正则表达式尤其有用，因为它可以通过 Unicode 范围直接匹配常用的汉字及标点符号。此外，正则表达式中的贪婪和非贪婪模式提供了不同的匹配策略，使我们能够更灵活地控制匹配的长度和范围。这篇文章将通过一些示例介绍如何使用正则表达式匹配中文字符，以及如何利用贪婪和非贪婪模式进行不同方式的匹配。

一、匹配中文

正则表达式可以用来匹配各种字符，包括中文字符。匹配中文字符的核心是利用 Unicode 字符集中的中文范围。在正则表达式中，中文字符的匹配一般使用字符范围 [\u4e00-\u9fa5]，其中 \u4e00 到 \u9fa5 是 Unicode 中常见中文字符的范围。

（一）匹配单个中文字符

要匹配单个中文字符，可以使用 [\u4e00-\u9fa5]，它表示匹配一个中文字符。

示例：

import re text = "这是一个测试" # 匹配单个中文字符 result = re.findall(r'[\u4e00-\u9fa5]', text) print(result) # 输出: ['这', '是', '一', '个', '测', '试']

（二）匹配多个连续的中文字符

如果你想匹配多个连续的中文字符，可以使用 [\u4e00-\u9fa5]+，它表示匹配一个或多个连续的中文字符。

示例：

import re text = "这是一个测试" # 匹配多个连续的中文字符 result = re.findall(r'[\u4e00-\u9fa5]+', text) print(result) # 输出: ['这是一个测试']

（三）匹配中英文混合的文本中的中文字符

在处理包含中英文混合的文本时，可以用正则表达式只提取中文字符。

示例：

import re text = "This is a test. 这是一个测试。" # 匹配所有中文字符 result = re.findall(r'[\u4e00-\u9fa5]+', text) print(result) # 输出: ['这是一个测试']

（四）匹配中文标点符号

除了汉字，中文标点符号也有专门的 Unicode 范围。要匹配中文标点符号，可以使用 [\u3000-\u303F] 这个范围。

示例：

import re text = "你好，世界！这是一个测试。" # 匹配中文标点符号 result = re.findall(r'[\u3000-\u303F]', text) print(result) # 输出: ['，', '！', '。']

（五）匹配中文字符和标点符号

如果要同时匹配中文字符和中文标点，可以将这两部分结合在一起。例如，使用 [\u4e00-\u9fa5\u3000-\u303F]+ 来匹配。

示例：

import re text = "你好，世界！这是一个测试。" # 匹配中文字符和中文标点 result = re.findall(r'[\u4e00-\u9fa5\u3000-\u303F]+', text) print(result) # 输出: ['你好', '，', '世界', '！', '这是一个测试', '。']

（六）匹配所有 CJK (中文、日文、韩文) 字符

如果要匹配所有 CJK（中日韩）字符，可以使用 Unicode 字符集中的范围 [\u4e00-\u9FFF]。

示例：

import re text = "中文, 한국어, 日本語" # 匹配所有 CJK 字符 result = re.findall(r'[\u4e00-\u9FFF]+', text) print(result) # 输出: ['中文', '한국어', '日本語']

（七）匹配不包括中文的部分

可以使用反向匹配来排除中文部分。例如，匹配非中文字符的部分，可以使用 [^ \u4e00-\u9fa5]+。

示例：

import re text = "这是1234一个测试test。" # 匹配非中文的字符 result = re.findall(r'[^ \u4e00-\u9fa5]+', text) print(result) # 输出: ['1234', 'test']

（八）匹配中文总结

正则表达式通过 Unicode 范围可以轻松匹配中文字符。使用 [\u4e00-\u9fa5] 匹配常用汉字字符，同时可以通过调整范围和组合来匹配标点符号、CJK 字符以及中英文混合的内容。通过合理使用这些技巧，你可以在文本处理和解析过程中高效地提取和操作中文字符。

二、贪婪与非贪婪模式

在 Python 中，正则表达式的贪婪和非贪婪模式控制了匹配时字符的数量：

（一）贪婪模式

贪婪模式会尽可能多地匹配字符，直到整个表达式不再匹配为止。默认情况下，Python 正则表达式是贪婪的，即量词（如 *、+、{m,n}）会尝试匹配尽可能多的字符。

常见的贪婪量词：

*：匹配前面的字符 0 次或多次
+：匹配前面的字符 1 次或多次
{m,n}：匹配前面的字符至少 m 次，至多 n 次

示例：

import re text = "abc123abc456" result = re.search(r'a.*c', text) print(result.group()) # 输出：abc123abc

在上面的示例中，.* 是贪婪匹配，会尽可能多地匹配字符，直到最后一个 c，因此匹配了 "abc123abc"。

（二）非贪婪模式

非贪婪模式，也称为惰性匹配，会尽可能少地匹配字符。你可以在贪婪量词后加上一个 ? 来实现非贪婪匹配。例如：*?、+?、{m,n}?。

非贪婪量词：

*?：匹配前面的字符 0 次或多次，但尽可能少地匹配
+?：匹配前面的字符 1 次或多次，但尽可能少地匹配
{m,n}?：匹配前面的字符至少 m 次，至多 n 次，但尽可能少地匹配

示例：

import re text = "abc123abc456" result = re.search(r'a.*?c', text) print(result.group()) # 输出：abc

在上面的示例中，.*? 是非贪婪匹配，它会尽可能少地匹配字符，所以它匹配了 "abc"（第一个 a 到第一个 c 之间的内容）。

（三）贪婪与非贪婪小结

贪婪模式：默认模式，会尽可能多地匹配字符。
非贪婪模式：通过 ? 将贪婪量词转换为非贪婪，会尽可能少地匹配字符。
常见的用法是通过在量词后添加 ?，如 *? 或 +? 来启用非贪婪模式。

三、总结

通过本文的介绍，我们可以看到正则表达式在处理中文字符时的强大能力。从匹配单个或多个汉字，到捕获中英文混合文本中的中文部分，再到提取特定的中文标点符号，正则表达式都能轻松应对。同时，掌握贪婪和非贪婪模式的差异可以帮助我们在匹配字符时更加精准。在文本解析和数据清理任务中，熟练运用这些正则表达式技巧将为我们带来极大的便利和效率。

详细教程：如何从前端查看调用接口、传参及返回结果（附带图片案例）

目录 1. 打开浏览器开发者工具 2. 使用 Network 面板 3. 查看具体的API请求 a. Headers b. Payload c. Response d. Preview e. Timing 4. 实际操作步骤 5. 常见问题及解决方法 a. 无法看到API请求 b. 请求失败 c. 跨域问题（CORS）作为一名后端工程师，理解前端如何调用接口、传递参数以及接收返回值是非常重要的。下面将详细介绍如何通过浏览器开发者工具（F12）查看和分析这些信息，并附带图片案例帮助你更好地理解。 1. 打开浏览器开发者工具按下 F12 或右键点击页面选择“检查”可以打开浏览器的开发者工具。常用的浏览器如Chrome、Firefox等都内置了开发者工具。下面是我选择我的一篇文章，打开开发者工具进行演示。 2. 使用

【OpenClaw从入门到精通】第04篇：Web/TUI/钉钉全打通！OpenClaw多端交互实测指南（2026避坑版）

摘要：本文聚焦OpenClaw三大核心交互方式，针对新手“不知如何与AI助理沟通”的痛点，提供Web控制台、TUI终端、聊天软件（以钉钉为核心）的完整实操流程。Web控制台适配电脑端深度配置，TUI终端适合服务器远程维护，聊天软件满足手机端移动办公，三者协同实现“随时随地召唤AI”。文中包含2026实测的命令代码、配置步骤、问题排查方案，所有案例为虚拟构建，代码未上传GitHub，兼顾新手入门与进阶实操，帮助读者快速打通多端交互，最大化OpenClaw使用效率。优质专栏欢迎订阅！【DeepSeek深度应用】【Python高阶开发：AI自动化与数据工程实战】【YOLOv11工业级实战】【机器视觉：C# + HALCON】【大模型微调实战：平民级微调技术全解】【人工智能之深度学习】【AI 赋能：Python 人工智能应用实战】【数字孪生与仿真技术实战指南】【AI工程化落地与YOLOv8/v9实战】【C#工业上位机高级应用：高并发通信+性能优化】【Java生产级避坑指南：高并发+性能调优终极实战】【Coze搞钱实战：零代码打造吸金AI助手】

MC.JS WEBMC 1.8.8 PLUS MOBILE在在线教育中的应用案例

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 输入框内输入如下内容：创建一个基于MC.JS WEBMC 1.8.8 PLUS MOBILE的教育演示项目。要求：1) 实现一个简单的3D编程教学环境；2) 包含5个循序渐进的编程练习任务；3) 添加教学注释和提示系统；4) 支持移动设备访问；5) 提供学生作品展示区。请使用响应式设计，确保在不同设备上都有良好的用户体验。 1. 点击'项目生成'按钮，等待项目生成完整后预览效果最近在尝试将游戏开发引入编程教学时，发现MC.JS WEBMC 1.8.8 PLUS MOBILE这个工具特别适合做在线教育场景的实践。通过浏览器就能创建3D编程环境的特点，

【年终总结】从非科班无实习到准字节前端：我始终相信，开发之外的事，才是破局关键

目录【年终总结】从非科班无实习到准字节前端：我始终相信，开发之外的事，才是破局关键一、求其外，善其内 1、坚持出发点正确的博文写作 2、博文更新对我心态的淬炼 3、社区交流对我视野的启发 4、向外拓展，反哺内修二、陷入前端则前端死，跳出前端则前端活 1、从不务正业到泛前端 2、从泛前端到大前端，从有形到无形三、秋招多少事四、结语作者：watermelo37 ZEEKLOG优质创作者、华为云云享专家、阿里云专家博主、腾讯云“创作之星”特邀作者、火山KOL、支付宝合作作者，全平台博客昵称watermelo37。一个假装是giser的coder，做不只专注于业务逻辑的前端工程师，Java、Docker、Python、LLM均有涉猎。 --------------------------------------------------------------------- 温柔地对待温柔的人，包容的三观就是最大的温柔。

前言