用 Prompt 生成正则表达式进行文本匹配实战 | 极客日志

编程语言Node.jsAI大前端java算法

用 Prompt 生成正则表达式进行文本匹配实战

利用大模型生成正则表达式可显著降低文本匹配门槛。阐述了 AI 与正则结合的价值，梳理了 Prompt 设计的三大原则与四段式结构，并通过固定电话、URL 域名、敏感词过滤、中文姓名、日志时间戳五个高频场景，提供了完整的 Prompt 示例、代码实现及验证分析。同时总结了常见问题的解决方案，帮助读者从需求描述到工具落地，高效解决各类文本匹配问题。

奶糖兔发布于 2026/4/6更新于 2026/7/2136 浏览

用 Prompt 生成正则表达式进行文本匹配实战

在日常文本处理中，正则表达式是提取、过滤和验证数据的利器，但编写正则往往需要记忆复杂的元字符和语法，门槛较高。利用大语言模型（LLM）通过自然语言描述需求来生成正则，能大幅降低使用门槛，提升效率。

一、为什么结合 AI 与正则？

传统方式下，编写一个精准的正则需要对 \d、*、分组等语法规则非常熟悉，且需反复调试。而Prompt 驱动的正则生成允许非技术人员直接描述需求，核心价值体现在：

效率提升：无需死记硬背，几句自然语言描述即可生成目标正则。
降低门槛：运营、编辑等非技术岗位也能完成复杂的文本匹配任务。
场景适配：支持灵活描述边缘情况，如'匹配带区号的手机号但排除 170 开头'。

二、正则基础回顾（为 Prompt 打基础）

为了让模型生成准确的正则，我们需要在 Prompt 中清晰描述核心要素。以下是文本匹配最常用的基础概念：

核心要素	作用说明	常见示例
元字符	代表特定字符类型或规则	`\d` (数字), `\w` (字母/数字/下划线), `.` (任意字符)
量词	定义重复次数	`*` (0 次或多次), `+` (1 次或多次), `{n,m}` (n 到 m 次)
分组与捕获	将元素视为整体或提取内容	`(abc)` (捕获组), `(?:abc)` (非捕获组)
字符集	匹配指定范围内的字符	`[a-z]`, `[0-9A-Z]`, `[^0-9]` (非数字)
边界匹配	限制匹配位置	`^` (开头), `$` (结尾), `\b` (单词边界)

理解这些后，我们在 Prompt 中就能更精准地描述需求，例如明确'匹配以 1 开头、包含 11 位数字的手机号'，而非模糊的'匹配手机号'。

三、Prompt 设计的核心原则与结构

要让模型生成可用、精准的正则，建议遵循需求明确化、场景具象化、约束清晰化三大原则，并采用固定的四段式结构。

1. 设计原则

需求明确化：拒绝模糊描述。反例：'匹配邮箱'；正例：'匹配以@qq.com 结尾的邮箱，用户名允许字母数字，长度 6-20 位'。
场景具象化：提供正面和负面示例。例如：'匹配中国身份证号（18 位），正面示例：110101...，负面示例：17 位数字'。
约束清晰化：明确工具环境。不同工具对语法支持不同（如 Excel 不支持 \d，需用替代）。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Keycode 信息
查找任何按下的键的javascript键代码、代码、位置和修饰符。在线工具，Keycode 信息在线工具，online
Escape 与 Native 编解码
JavaScript 字符串转义/反转义；Java 风格 \uXXXX（Native2Ascii）编码与解码。在线工具，Escape 与 Native 编解码在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
JavaScript / HTML 格式化
使用 Prettier 在浏览器内格式化 JavaScript 或 HTML 片段。在线工具，JavaScript / HTML 格式化在线工具，online

[0-9]

场景说明：我需要处理【具体文本类型】，目的是【提取/过滤/验证】。
需求描述：请生成一个正则表达式，用于【具体匹配规则】，其中需要注意【特殊约束】。
示例补充：
 - 需匹配的文本示例：【列举 2-3 个正面示例】
 - 不需匹配的文本示例：【列举 2-3 个负面示例】
工具约束：该正则将用于【工具/语言，如 Python re 模块】，请确保语法兼容。
额外要求：解释正则各部分含义，并提供对应的代码调用示例。

import re

text = """
客户 A: 010-12345678（北京）
客户 B: (021)87654321（上海）
客户 C: 0086-010-12345678（国际区号，需排除）
"""

# 负向前瞻排除 00 开头的区号
pattern = r'^(?!00)\(?0\d{2,3}\)?[-.]?\d{7,8}$'
matches = re.findall(pattern, text, re.MULTILINE)
print(matches)

const urls = [
  "https://www.baidu.com/s?wd=prompt",
  "HTTP://blog.example.net/article"
];

// 捕获组 [2] 为核心域名
const domainPattern = /^(https?:\/\/|ftp:\/\/)?([a-zA-Z0-9.-]+\.(com|cn|org|net|edu))[\/\?#]?.*/i;

urls.forEach(url => {
  const match = url.match(domainPattern);
  if (match && match[2]) console.log(match[2]);
});

function hasSensitiveWord($comment) {
    // 支持敏感词中间有空格或短横线
    $sensitivePattern = '/假 [\s-]* 虚 [\s-]* 宣 [\s-]* 传 | 假 [\s-]* 货 | 骗 [\s-]* 子/i';
    return preg_match($sensitivePattern, $comment) === 1;
}

String namePattern = "[\\u4e00-\\u9fa5]{2,4}";
// Unicode 范围覆盖常用简体中文字符

# 筛选包含时间戳的行
grep -E '20[0-9]{2}-(0?[1-9]|1[0-2])-(0?[1-9]|[12][0-9]|3[01])\s([01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]' server.log

问题现象	原因分析	解决方案
匹配不到目标	需求描述模糊或未覆盖特殊场景	补充正面/负面示例，明确特殊规则
匹配到无关内容	未限制边界或排除无效场景	添加边界匹配 (`^`, `$`)，增加负面示例
工具运行报错	语法转义问题或工具不支持特性	明确编程语言/工具，避免使用复杂断言
无法处理边缘情况	未提及边缘场景	尽可能枚举边缘场景，或结合代码二次校验

用 Prompt 生成正则表达式进行文本匹配实战

用 Prompt 生成正则表达式进行文本匹配实战

一、为什么结合 AI 与正则？

二、正则基础回顾（为 Prompt 打基础）

三、Prompt 设计的核心原则与结构

1. 设计原则

更多推荐文章

相关免费在线工具

2. 标准 Prompt 模板

四、高频场景实战案例

场景 1：匹配带区号的固定电话号码

场景 2：提取 URL 中的域名

场景 3：过滤包含敏感词的评论

场景 4：匹配中文姓名

场景 5：提取日志时间戳

五、常见问题与解决方案

六、总结与建议

更多推荐文章

相关免费在线工具

用 Prompt 生成正则表达式进行文本匹配实战

用 Prompt 生成正则表达式进行文本匹配实战

一、为什么结合 AI 与正则？

二、正则基础回顾（为 Prompt 打基础）

三、Prompt 设计的核心原则与结构

1. 设计原则

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 标准 Prompt 模板

四、高频场景实战案例

场景 1：匹配带区号的固定电话号码

场景 2：提取 URL 中的域名

场景 3：过滤包含敏感词的评论

场景 4：匹配中文姓名

场景 5：提取日志时间戳

五、常见问题与解决方案

六、总结与建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具