Python 爬虫实战：常见验证码自动识别方案 | 极客日志

PythonAI算法

Python 爬虫实战：常见验证码自动识别方案

详细阐述了 Python 爬虫中常见验证码的自动识别技术方案。内容涵盖文字验证码、图像验证码和滑动验证码三大类。针对文字验证码，介绍了基于 Tesseract OCR 的传统方法及基于 Keras/TensorFlow 的深度学习 CNN 模型构建；针对图像验证码，提出了迁移学习和目标检测的思路；针对滑动验证码，深入解析了 OpenCV 模板匹配算法及坐标计算逻辑。此外，文章还提供了环境搭建、代码示例、反爬对抗策略及法律合规建议，旨在帮助开发者构建稳定且合规的爬虫系统。

Ne0发布于 2025/2/7更新于 2026/7/1939 浏览

Python 爬虫实战：常见验证码自动识别方案

一、引言

在网页数据采集过程中，验证码（CAPTCHA）是阻碍自动化脚本访问的主要屏障之一。验证码的全称是 Completely Automated Public Turing test to tell Computers and Humans Apart，即完全自动化的公共图灵测试，用于区分人类用户和计算机程序。其核心目的是防止恶意攻击、垃圾注册、暴力破解等自动化行为。

对于爬虫开发者而言，理解验证码的生成机制并掌握相应的识别技术，是提升爬虫稳定性和效率的关键。本文将深入探讨三种主流验证码类型：文字验证码、图像验证码和滑动验证码，并提供基于 Python 的完整识别解决方案。

二、环境准备与依赖安装

在进行验证码识别之前，需要搭建好必要的开发环境。主要依赖包括图像处理库、OCR 引擎以及深度学习框架。

1. 基础依赖

pip install requests pillow opencv-python numpy

2. OCR 引擎 (Tesseract)

Tesseract 是 Google 开源的 OCR 引擎，支持多种语言识别。Linux 下需单独安装二进制文件：

# Ubuntu/Debian
sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
# Windows/Mac 需从官网下载安装包并配置环境变量

3. 深度学习框架

若使用深度学习模型，建议安装 TensorFlow 或 PyTorch：

pip install tensorflow keras

三、文字验证码识别

文字验证码是最基础的类型，通常由随机生成的字母、数字或干扰线组成。识别方法主要分为传统 OCR 和深度学习两类。

1. 传统 OCR 识别 (Tesseract)

Tesseract 对清晰、无干扰的文字效果较好，但在面对复杂背景时准确率会下降。因此，预处理至关重要。

预处理步骤

灰度化：将彩色图片转为灰度图，减少通道数。
二值化：通过阈值处理将图像分为黑白两色，去除噪点。
去噪：使用高斯模糊或形态学操作去除孤立噪点。

代码示例

from PIL import Image, ImageFilter
import pytesseract
import cv2
import numpy as np

def preprocess_image(image_path):
    # 读取图片
    img = cv2.imread(image_path)
    
    # 转灰度
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    # 二值化 (Otsu's thresholding)
    _, binary = cv2.threshold(gray, , , cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    
    
    cv2.imwrite(, binary)
     

 ():
    
    processed_path = preprocess_image(image_path)
    
    
    config = 
    text = pytesseract.image_to_string(Image.(processed_path), config=config)
    
     text.strip()

 __name__ == :
    result = recognize_text()
    ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.utils import to_categorical
import numpy as np

# 假设已有训练好的数据 X_train, y_train
# X_train shape: (num_samples, height, width, channels)
# y_train shape: (num_samples, num_classes)

def build_model(input_shape, num_classes):
    model = Sequential()
    model.add(Conv2D(32, (3, 3), activation='relu', input_shape=input_shape))
    model.add(MaxPooling2D((2, 2)))
    model.add(Conv2D(64, (3, 3), activation='relu'))
    model.add(MaxPooling2D((2, 2)))
    model.add(Flatten())
    model.add(Dense(128, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(num_classes, activation='softmax'))
    
    model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
    return model

# 加载预训练模型
# model = load_model('captcha_model.h5')
# prediction = model.predict(test_image)

from tensorflow.keras.applications import MobileNetV2
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.mobilenet_v2 import preprocess_input, decode_predictions

def predict_object(image_path):
    # 加载预训练模型
    base_model = MobileNetV2(weights='imagenet', include_top=True)
    
    # 读取并预处理图片
    img = image.load_img(image_path, target_size=(224, 224))
    x = image.img_to_array(img)
    x = np.expand_dims(x, axis=0)
    x = preprocess_input(x)
    
    # 预测
    preds = base_model.predict(x)
    results = decode_predictions(preds, top=3)[0]
    
    for label, description, score in results:
        if score > 0.5:
            print(f'识别为：{description} (置信度：{score:.2f})')

import cv2
import numpy as np

def find_slider_position(bg_path, gap_path):
    # 读取图片
    bg = cv2.imread(bg_path)
    gap = cv2.imread(gap_path)
    
    # 转换为灰度图
    gray_bg = cv2.cvtColor(bg, cv2.COLOR_BGR2GRAY)
    gray_gap = cv2.cvtColor(gap, cv2.COLOR_BGR2GRAY)
    
    # 获取缺口图的宽和高
    w, h = gray_gap.shape[1], gray_gap.shape[0]
    
    # 执行模板匹配
    res = cv2.matchTemplate(gray_bg, gray_gap, cv2.TM_CCOEFF_NORMED)
    
    # 查找最大值及其位置
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res)
    
    # 计算中心点坐标
    # 注意：实际移动距离通常是左上角坐标加上缺口宽度的一半
    left = max_loc[0]
    top = max_loc[1]
    distance = left + w // 2
    
    print(f'滑块起始位置：({left}, {top})')
    print(f'需要移动的距离：{distance}px')
    
    return distance

# 使用示例
# distance = find_slider_position('bg.png', 'gap.png')

import requests
from fake_useragent import UserAgent

headers = {
    'User-Agent': UserAgent().chrome,
    'Accept-Language': 'zh-CN,zh;q=0.9'
}

session = requests.Session()
response = session.get('https://example.com/captcha', headers=headers)

# 假设已识别出验证码 token
captcha_token = get_captcha_from_image(response.content)

payload = {
    'username': 'user',
    'password': 'pass',
    'captcha': captcha_token
}

login_response = session.post('https://example.com/login', data=payload, headers=headers)
print(login_response.text)

Python 爬虫实战：常见验证码自动识别方案

Python 爬虫实战：常见验证码自动识别方案

一、引言

二、环境准备与依赖安装

1. 基础依赖

2. OCR 引擎 (Tesseract)

3. 深度学习框架

三、文字验证码识别

1. 传统 OCR 识别 (Tesseract)

预处理步骤

代码示例

更多推荐文章

相关免费在线工具

2. 深度学习识别

模型构建思路

代码示例 (Keras)

四、图像验证码识别

1. 识别策略

2. 实现流程

3. 代码逻辑示意

五、滑动验证码识别

1. 原理分析

2. 模板匹配算法

3. 代码实现

4. 高级处理技巧

六、综合应用与反爬对抗

示例：集成到 Requests 中

七、法律合规与道德风险

八、总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：常见验证码自动识别方案

Python 爬虫实战：常见验证码自动识别方案

一、引言

二、环境准备与依赖安装

1. 基础依赖

2. OCR 引擎 (Tesseract)

3. 深度学习框架

三、文字验证码识别

1. 传统 OCR 识别 (Tesseract)

预处理步骤

代码示例

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2. 深度学习识别

模型构建思路

代码示例 (Keras)

四、图像验证码识别

1. 识别策略

2. 实现流程

3. 代码逻辑示意

五、滑动验证码识别

1. 原理分析

2. 模板匹配算法

3. 代码实现

4. 高级处理技巧

六、综合应用与反爬对抗

示例：集成到 Requests 中

七、法律合规与道德风险

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具