用 Prompt 生成正则表达式进行文本匹配 | 极客日志

编程语言AI算法

用 Prompt 生成正则表达式进行文本匹配

利用 AI 提示词生成正则表达式可显著降低文本匹配门槛。文章阐述了结合价值，介绍了正则基础与 Prompt 设计原则，通过固定电话、URL 域名、敏感词过滤等五个实战案例演示了从需求描述到代码落地的完整流程，并总结了常见问题解决方案，帮助非技术人员高效完成文本处理任务。

人间失格发布于 2026/4/9更新于 2026/7/630 浏览

在这里插入图片描述

AI 的提示词专栏：用 Prompt 生成正则表达式进行文本匹配

在这里插入图片描述

一、正则表达式与 Prompt 结合的价值

在日常文本处理工作中，正则表达式是提取、过滤、验证特定文本模式的高效工具，但编写正则表达式对技术能力有一定要求——不仅需要掌握元字符（如\d 代表数字、* 代表任意次数重复）、量词、分组等语法规则，还需针对具体场景调试匹配逻辑，这让非技术人员或正则初学者望而却步。

而Prompt 驱动的正则表达式生成，能通过自然语言描述需求，让大语言模型（如 ChatGPT、Claude）直接输出可使用的正则表达式，大幅降低正则使用门槛。其核心价值体现在三个方面：

效率提升：无需手动记忆复杂语法，1-2 句自然语言描述即可生成目标正则，避免反复调试耗时；
降低门槛：非技术岗位（如运营、编辑、数据分析师）无需系统学习正则，也能完成文本匹配任务；
场景适配：支持灵活描述特殊需求（如'匹配带区号的手机号但排除 170 开头'），模型可自动处理边缘情况。

二、正则表达式的核心基础（为 Prompt 描述打基础）

在编写 Prompt 前，需先明确正则表达式的核心组成要素——这些要素是大语言模型生成正确正则的'底层逻辑'，也是我们在 Prompt 中需要清晰描述的关键信息。以下是文本匹配场景中最常用的正则基础：

核心要素	作用说明	常见示例
元字符	代表特定字符类型或匹配规则	- `\d`：匹配任意数字（0-9）

\w：匹配字母、数字、下划线
.：匹配任意单个字符（除换行）
^：匹配字符串开头
$：匹配字符串结尾 | | 量词 | 定义前面元素的重复次数 | - *：0 次或多次重复（如匹配'''a''aa'）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

a*

场景说明：我需要处理【具体文本类型，如'用户注册数据''新闻标题''日志文件'】，目的是【提取特定内容/过滤无效数据/验证格式】。
需求描述：请生成一个正则表达式，用于【具体匹配规则，如'匹配所有包含 4 位年份的日期（格式为 YYYY-MM-DD）''过滤包含特殊符号（#、@、$）的用户名'】，其中需要注意【特殊约束，如'年份范围在 1900-2024 之间''不匹配以数字开头的用户名'】。
示例补充：
- 需匹配的文本示例：【列举 2-3 个正面示例，如'2023-10-01''1998-02-28'】
- 不需匹配的文本示例：【列举 2-3 个负面示例，如'2023/10/01''2025-01-01'（年份超出范围）】
工具约束：该正则将用于【工具/语言，如'Python 3.x 的 re.findall() 方法''Excel 2021 的数据验证功能''Notepad++的替换功能'】，请确保语法兼容。
额外要求：请解释正则表达式的每个部分含义，并提供对应的代码调用示例（若为编程语言）。

场景说明：我需要处理企业客户的联系数据，目的是从文本中提取所有带区号的固定电话号码，用于后续电话回访。
需求描述：请生成一个正则表达式，用于匹配中国固定电话号码，规则如下：
1. 区号为 3-4 位数字（如 010、021、0755），区号后可接'-'或无连接符；
2. 号码部分为 7-8 位数字（如 1234567、12345678）；
3. 整体格式允许带括号（如 (010)12345678），但不允许区号以 00 开头（排除国际区号）。
示例补充：
- 需匹配的文本示例：010-12345678、(021)87654321、07551234567
- 不需匹配的文本示例：0086-10-12345678（国际区号）、010-12345（号码位数不足）、12345678（无区号）
工具约束：该正则将用于 Python 3.x 的 re.findall() 方法，需返回完整的电话号码。
额外要求：解释正则各部分含义，并提供 Python 代码调用示例。

# 正则表达式 r'^(?!00)\(?0\d{2,3}\)?[-.]?\d{7,8}$'
# 正则各部分含义解释
1. ^：匹配字符串开头，确保号码从开头开始匹配；
2. (?!00)：负向前瞻，排除以'00'开头的区号（避免国际区号）；
3. \(?：匹配 0 个或 1 个左括号'('（允许带括号的区号）；
4. 0\d{2,3}：匹配以 0 开头的 3-4 位数字（区号核心部分，如 010、0755）；
5. \)?：匹配 0 个或 1 个右括号')'；
6. [-.]?：匹配 0 个、1 个'-'或'.'（区号与号码的连接符，允许无连接符）；
7. \d{7,8}：匹配 7-8 位数字（固定电话的号码部分）；
8. $：匹配字符串结尾，确保号码到末尾结束，避免多余字符。

# Python 代码调用示例
import re

# 待处理的文本数据
text = """
客户 A：010-12345678（北京）
客户 B：(021)87654321（上海）
客户 C：07551234567（深圳）
客户 D：0086-010-12345678（国际区号，需排除）
客户 E：12345678（无区号，需排除）
"""

# 提取匹配的固定电话
pattern = r'^(?!00)\(?0\d{2,3}\)?[-.]?\d{7,8}$'
# 由于文本中号码可能在换行或空格后，需用 re.MULTILINE 开启多行匹配
matches = re.findall(pattern, text, re.MULTILINE)
print("提取到的固定电话号码：")
for phone in matches:
    print(phone)

场景说明：我需要分析用户分享的链接数据，目的是提取 URL 中的核心域名（如从'https://www.baidu.com/s?wd=prompt'中提取'www.baidu.com'），用于统计热门网站。
需求描述：请生成一个正则表达式，用于从 URL 中提取核心域名，规则如下：
1. 排除 URL 开头的'http://''https://''ftp://'（不区分大小写，如'HTTPS://'也需排除）；
2. 域名包含'www.'或直接以'xxx.com''xxx.cn''xxx.org'结尾（支持常见顶级域名：.com、.cn、.org、.net、.edu）；
3. 域名后若有'/''?''#'，则提取到这些符号前（如'www.baidu.com/s'只取'www.baidu.com'）。
示例补充：
- 需提取的 URL 与目标域名：
1. https://www.baidu.com/s?wd=prompt → www.baidu.com
2. HTTP://example.com/article → example.com
3. ftp://www.zhihu.org/question → www.zhihu.org
- 不需提取的情况：无（仅需正确截取域名）
工具约束：该正则将用于 JavaScript 的 String.match() 方法，需返回提取后的域名。
额外要求：解释正则各部分含义，并提供 JavaScript 代码示例。

// 正则表达式（不区分大小写，需配合 i 标志使用）
/^(https?:\/\/|ftp:\/\/)?([a-zA-Z0-9.-]+\.(com|cn|org|net|edu))[\/?#]?.*/i

// 正则各部分含义解释
1. ^：匹配字符串开头；
2. (https?:\/\/|ftp:\/\/)?：匹配 0 个或 1 个'http://''https://'或'ftp://'（'s?'表示 s 可选，对应 http/https；'?'表示整个分组可选，处理无协议头的 URL）；
3. ([a-zA-Z0-9.-]+\.(com|cn|org|net|edu))：捕获核心域名（分组 2，即最终需提取的部分）：
   - [a-zA-Z0-9.-]+：匹配域名主体（包含字母、数字、'.''-'，如'www.baidu''example'）；
   - \.：匹配域名中的'.'（连接主体与顶级域名）；
   - (com|cn|org|net|edu)：匹配指定的 5 种顶级域名；
4. [\/?#]?：匹配 0 个或 1 个'/''?''#'（域名后的分隔符）；
5. .*：匹配分隔符后的任意字符（忽略域名后的内容）；
6. /i：正则结尾的 i 标志，表示不区分大小写（匹配 HTTPS://、Http://等）。

// JavaScript 代码调用示例
const urls = [
  "https://www.baidu.com/s?wd=prompt",
  "HTTP://example.com/article",
  "ftp://www.zhihu.org/question",
  "www.taobao.com/item?id=123", // 无协议头的 URL
  "https://mail.163.com/login"
];

const domainPattern = /^(https?:\/\/|ftp:\/\/)?([a-zA-Z0-9.-]+\.(com|cn|org|net|edu))[\/?#]?.*/i;

urls.forEach(url => {
  const match = url.match(domainPattern);
  if (match && match[2]) {
    console.log(`URL: ${url} → 域名：${match[2]}`);
  } else {
    console.log(`URL: ${url} → 未匹配到有效域名`);
  }
});

场景说明：我需要审核电商平台的用户评论，目的是过滤包含'虚假宣传''假货''骗子''垃圾''差评'（敏感词列表可扩展）的评论，避免负面内容影响其他用户。
需求描述：请生成一个正则表达式，用于匹配包含指定敏感词的评论，规则如下：
1. 敏感词列表：虚假宣传、假货、骗子、垃圾、差评（需支持完全匹配，不匹配部分字符，如'差评'不匹配'差差评'）；
2. 敏感词前后可包含任意字符（如'这家店是骗子！''全是假货，不要买'均需匹配）；
3. 不区分大小写（如'垃圾''垃圾''垃圾'均需匹配）；
4. 支持敏感词中间有空格或特殊符号（如'虚 假宣传''假 - 货'也需匹配）。
示例补充：
- 需过滤的评论示例：
1. '这家店虚假宣传，实物与描述不符'
2. '买到假货了，申请退款被拒'
3. '骗子商家，收了钱不发货！'
4. '商品质量垃圾，差评！'
5. '这是假 - 货，大家别买'
- 不需过滤的评论示例：
1. '虽然有小问题，但不算差评'（'差评'为部分语义，需排除？不，需求是完全匹配'差评'，故需过滤）
2. '这家店服务好，没有虚假信息'（无敏感词，需排除）
工具约束：该正则将用于 PHP 的 preg_match() 函数，判断评论是否包含敏感词（返回 true/false）。
额外要求：解释正则各部分含义，并提供 PHP 代码示例，同时说明如何扩展敏感词列表。

<?php
/**
 * 判断评论是否包含敏感词
 * @param string $comment 待审核的评论
 * @return bool 包含敏感词返回 true，否则返回 false
 */
function hasSensitiveWord($comment) {
    // 敏感词正则（支持空格和短横线分隔）
    $sensitivePattern = '/假 [\s-]* 虚 [\s-]* 宣 [\s-]* 传 | 假 [\s-]* 货 | 骗 [\s-]* 子 | 垃 [\s-]* 圾 | 差 [\s-]* 评/i';
    // 使用 preg_match 判断是否匹配（1 为匹配，0 为不匹配，false 为正则错误）
    return preg_match($sensitivePattern, $comment) === 1;
}

// 测试用例
$comments = [
    "这家店虚假宣传，实物与描述不符", // 包含'虚假宣传' → 需过滤
    "买到假货了，申请退款被拒", // 包含'假货' → 需过滤
    "骗子商家，收了钱不发货！", // 包含'骗子' → 需过滤
    "商品质量垃圾，差评！", // 包含'垃圾''差评' → 需过滤
    "这是假 - 货，大家别买", // 包含'假 - 货' → 需过滤
    "虽然有小问题，但整体满意", // 无敏感词 → 不需过滤
    "这家店服务好，没有虚假信息" // 无敏感词 → 不需过滤
];

// 执行审核
foreach ($comments as $index => $comment) {
    $isSensitive = hasSensitiveWord($comment);
    $result = $isSensitive ? "【需过滤】" : "【正常】";
    echo "评论" . ($index + 1) . ":{$comment} → {$result}\n";
}

// 扩展敏感词列表的方法
// 示例：新增'劣质''过期'两个敏感词，只需在正则中用'|'添加：
// $sensitivePattern = '/假 [\s-]* 虚 [\s-]* 宣 [\s-]* 传 | 假 [\s-]* 货 | 骗 [\s-]* 子 | 垃 [\s-]* 圾 | 差 [\s-]* 评 | 劣 [\s-]* 质 | 过 [\s-]* 期/i';
?>

场景说明：我需要处理员工信息表，目的是从混合文本中提取中文姓名（排除包含数字、字母、特殊符号的姓名），用于生成员工名册。
需求描述：请生成一个正则表达式，用于匹配中文姓名，规则如下：
1. 姓名由 2-4 个中文字符组成（常见中文姓名长度，如'张三''李四''王小明''欧阳娜娜'）；
2. 不包含任何数字、字母、特殊符号（如'李 3''张 a 三''王 - 五'均需排除）；
3. 姓名前后可无其他字符（即纯姓名匹配，如从'联系人：张三'中提取'张三'）。
示例补充：
- 需匹配的姓名示例：张三、李四、王小明、欧阳娜娜、赵一
- 不需匹配的姓名示例：李 3（含数字）、张 a 三（含字母）、王 - 五（含特殊符号）、陈（1 个字符，长度不足）、刘洋洋洋（5 个字符，长度超出）
工具约束：该正则将用于 Java 的 Pattern 和 Matcher 类，从文本中提取所有符合规则的中文姓名。
额外要求：解释正则各部分含义，并提供 Java 代码示例，说明如何处理姓名前后的多余字符。

import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ChineseNameExtractor {
    public static void main(String[] args) {
        // 待处理的混合文本
        String text = "员工列表：\n" +
                      "1. 张三（技术部）\n" +
                      "2. 李 3（销售部，含数字，需排除）\n" +
                      "3. 王小明（产品部）\n" +
                      "4. 张 a 三（市场部，含字母，需排除）\n" +
                      "5. 欧阳娜娜（设计部）\n" +
                      "6. 陈（行政部，长度不足，需排除）";

        // 正则表达式（匹配 2-4 个中文字符）
        String namePattern = "[\\u4e00-\\u9fa5]{2,4}";
        // Java 中反斜杠需转义，故写为\\u4e00
        Pattern pattern = Pattern.compile(namePattern);
        Matcher matcher = pattern.matcher(text);

        // 提取所有匹配的姓名
        List<String> names = new ArrayList<>();
        while (matcher.find()) {
            String name = matcher.group();
            // 额外验证：确保姓名不包含数字、字母（正则已限制为中文，此处可省略，仅作双重保险）
            if (!name.matches(".*[a-zA-Z0-9].*")) {
                names.add(name);
            }
        }

        // 输出结果
        System.out.println("提取到的中文姓名：");
        for (String name : names) {
            System.out.println(name);
        }
    }
}

场景说明：我需要分析服务器日志，目的是提取日志中所有的时间戳（格式为'年 - 月 - 日 时：分：秒'），用于统计不同时间段的请求量。
需求描述：请生成一个正则表达式，用于匹配日志中的时间戳，规则如下：
1. 时间戳格式为'YYYY-MM-DD HH:MM:SS'（如'2024-05-20 14:30:00'）；
2. 年份为 4 位数字（2000-2099 之间），月份为 1-12（1 月可写为'1'或'01'），日期为 1-31（需符合月份天数，如 2 月最多 29 天，但正则暂不严格校验日期有效性，仅匹配格式）；
3. 小时为 0-23，分钟为 0-59，秒为 0-59；
4. 时间戳前后可能有其他字符（如'[2024-05-20 14:30:00] INFO: 请求成功'），需提取完整时间戳。
示例补充：
- 需匹配的时间戳示例：2024-05-20 14:30:00、2023-12-01 09:05:59、2025-02-28 23:59:59
- 不需匹配的时间戳示例：2024/05/20 14:30:00（用'/'分隔，格式不符）、2024-05-20 14:60:00（分钟超出 59）、202-05-20 14:30:00（年份 3 位，格式不符）
工具约束：该正则将用于 Linux 的 grep 命令，从日志文件中筛选包含时间戳的行（或提取时间戳）。
额外要求：解释正则各部分含义，并提供 grep 命令示例，说明如何将提取的时间戳保存到文件。

# 正则表达式
20[0-9]{2}-(0?[1-9]|1[0-2])-(0?[1-9]|[12][0-9]|3[01])\s([01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]

# 正则各部分含义解释
1. 20[0-9]{2}：匹配 2000-2099 年（4 位年份，前两位为'20'，后两位为 00-99）；
2. -：匹配年份与月份之间的'-'；
3. (0?[1-9]|1[0-2])：匹配月份（1-12）：
   - 0?[1-9]：匹配 1-9 月（可带 0，如'01''1'）；
   - 1[0-2]：匹配 10-12 月；
4. -：匹配月份与日期之间的'-'；
5. (0?[1-9]|[12][0-9]|3[01])：匹配日期（1-31）：
   - 0?[1-9]：匹配 1-9 日（可带 0）；
   - [12][0-9]：匹配 10-29 日；
   - 3[01]：匹配 30-31 日；
6. \s：匹配空格（分隔日期与时间）；
7. ([01]?[0-9]|2[0-3])：匹配小时（0-23）：
   - [01]?[0-9]：匹配 0-19 时（可带 0，如'09''9'）；
   - 2[0-3]：匹配 20-23 时；
8. :[0-5][0-9]：匹配分钟（00-59，前两位为 0-5，后两位为 0-9）；
9. :[0-5][0-9]：匹配秒（00-59，同分钟规则）。

# Linux grep 命令示例
假设日志文件为'server.log'，以下是常用操作：

1. 筛选包含时间戳的所有行（输出到终端）：
grep -E '20[0-9]{2}-(0?[1-9]|1[0-2])-(0?[1-9]|[12][0-9]|3[01])\s([01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]' server.log

2. 仅提取时间戳（排除其他字符），并保存到'timestamps.txt'文件：
# 使用 grep 的-o 选项（仅输出匹配的部分）
grep -Eo '20[0-9]{2}-(0?[1-9]|1[0-2])-(0?[1-9]|[12][0-9]|3[01])\s([01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]' server.log > timestamps.txt

3. 统计时间戳的总数量（即日志中包含时间戳的行数）：
grep -Ec '20[0-9]{2}-(0?[1-9]|1[0-2])-(0?[1-9]|[12][0-9]|3[01])\s([01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]' server.log

# 说明
# -E：启用扩展正则表达式（支持'|''()'等符号，无需转义）；
# -o：仅输出匹配的字符串（此处即时间戳）；
# -c：输出匹配的行数（统计数量）；
# > timestamps.txt：将结果重定向到文件（覆盖原有内容，若需追加用>>）。

用 Prompt 生成正则表达式进行文本匹配

AI 的提示词专栏：用 Prompt 生成正则表达式进行文本匹配

一、正则表达式与 Prompt 结合的价值

二、正则表达式的核心基础（为 Prompt 描述打基础）

更多推荐文章

相关免费在线工具

三、Prompt 设计的核心原则与结构

（一）三大核心设计原则

（二）标准 Prompt 结构

四、不同场景的 Prompt 实战案例

案例 1：匹配带区号的固定电话号码

1. Prompt 输入

2. 模型输出（ChatGPT 4）

3. 效果验证与技巧分析

案例 2：提取 URL 中的域名（排除 http/https）

1. Prompt 输入

2. 模型输出（Claude 2）

3. 效果验证与技巧分析

案例 3：过滤包含敏感词的评论（多敏感词匹配）

1. Prompt 输入

2. 模型输出（Gemini Pro）

3. 效果验证与技巧分析

案例 4：匹配中文姓名（排除数字和特殊符号）

1. Prompt 输入

2. 模型输出（ChatGPT 3.5）

3. 效果验证与技巧分析

案例 5：提取日志中的时间戳（格式为 YYYY-MM-DD HH:MM:SS）

1. Prompt 输入

2. 模型输出（Claude 3）

3. 效果验证与技巧分析

五、Prompt 生成正则的常见问题与解决方案

六、总结与扩展学习

（一）核心总结

（二）扩展学习建议

更多推荐文章

相关免费在线工具

用 Prompt 生成正则表达式进行文本匹配

AI 的提示词专栏：用 Prompt 生成正则表达式进行文本匹配

一、正则表达式与 Prompt 结合的价值

二、正则表达式的核心基础（为 Prompt 描述打基础）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、Prompt 设计的核心原则与结构

（一）三大核心设计原则

（二）标准 Prompt 结构

四、不同场景的 Prompt 实战案例

案例 1：匹配带区号的固定电话号码

1. Prompt 输入

2. 模型输出（ChatGPT 4）

3. 效果验证与技巧分析

案例 2：提取 URL 中的域名（排除 http/https）

1. Prompt 输入

2. 模型输出（Claude 2）

3. 效果验证与技巧分析

案例 3：过滤包含敏感词的评论（多敏感词匹配）

1. Prompt 输入

2. 模型输出（Gemini Pro）

3. 效果验证与技巧分析

案例 4：匹配中文姓名（排除数字和特殊符号）

1. Prompt 输入

2. 模型输出（ChatGPT 3.5）

3. 效果验证与技巧分析

案例 5：提取日志中的时间戳（格式为 YYYY-MM-DD HH:MM:SS）

1. Prompt 输入

2. 模型输出（Claude 3）

3. 效果验证与技巧分析

五、Prompt 生成正则的常见问题与解决方案

六、总结与扩展学习

（一）核心总结

（二）扩展学习建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具