Python 调用智谱 GLM-4V 实现图片视觉识别与验证码解析 | 极客日志

PythonAI算法

Python 调用智谱 GLM-4V 实现图片视觉识别与验证码解析

综述由AI生成介绍使用 Python 调用智谱 GLM-4V 多模态大模型进行图片视觉识别的方法。涵盖本地图片、网页截图及 Base64 编码三种输入方式，重点演示了 hCaptcha 验证码的识别流程。通过封装通用函数，结合 DrissionPage 实现自动化截图与解析，提供环境配置、代码示例及优化建议，帮助开发者高效落地图像识别场景。

CodeArtist发布于 2026/3/29更新于 2026/5/2229 浏览

Python 调用智谱 GLM-4V 实现图片视觉识别（本地/网页图片通用）

智谱 GLM-4V 是高性能多模态大模型，支持图片 + 文本的混合输入，能精准识别图片内容（如验证码、图文分析、物体识别等）。本文将手把手教你实现本地图片、网页截图、Base64 编码图片三种方式调用 GLM-4V，结合实际场景（hCaptcha 验证码识别）完成落地。

一、核心知识点

GLM-4V 调用规则：图片需转为 Base64 编码传入 API
适配场景：本地图片识别、网页截图识别、验证码解析
核心库：requests（接口调用）、pillow（图片处理）、DrissionPage（网页截图）

二、环境准备

1. 安装依赖

# 基础依赖
pip install requests pillow
# 网页自动化/截图（可选，用于网页图片场景）
pip install DrissionPage
# 数据解析（可选）
pip install json re

2. 智谱 AI 配置

注册智谱 AI 开发者账号：https://open.bigmodel.cn/
获取 API Key（控制台-API 密钥管理）
确保账号余额充足（GLM-4V 单次调用成本≈0.006 元，极低）

三、通用封装：GLM-4V 调用核心函数

先封装通用调用函数，适配所有图片输入方式：

import requests
import base64
import json

# 智谱 AI 配置（替换为你的密钥）
AI_CONFIG = {
    "api_key": "你的 GLM-4V API Key",
    "base_url": "https://open.bigmodel.cn/api/paas/v4/chat/completions",
    "model": "glm-4v-plus"
}

def encode_image_to_base64(image_path):
    """ 本地图片转 Base64 编码（核心步骤）
    :param image_path: 本地图片路径
    :return: Base64 编码字符串
    """
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

def ():
    
    
      is_base64:
        base64_img = encode_image_to_base64(image_content)
    :
        base64_img = image_content

    
    headers = {
        : ,
        : 
    }

    
    payload = {
        : AI_CONFIG[],
        : [{
            : ,
            : [
                {: , : prompt},
                {: , : {: base64_img}}
            ]
        }],
        : ,
        : 
    }

    
    :
        response = requests.post(
            AI_CONFIG[],
            headers=headers,
            json=payload,
            timeout=
        )
        response.raise_for_status()
        result = response.json()
         result[][][][]
     Exception  e:
         Exception()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

def local_image_demo():
    """本地图片调用 GLM-4V 示例（识别验证码）"""
    # 1. 本地图片路径
    local_img_path = "captcha_screenshot.png"

    # 2. 定制化提示词（以 hCaptcha 九宫格验证码为例）
    prompt = """ 图片尺寸 400×600，坐标系左上角 (0,0)、右下角 (1000,1000)，3×3 九宫格验证码。 输出格式：[(x,y), (x,y)]，仅返回坐标列表，无多余文字。 """

    # 3. 调用 GLM-4V
    try:
        ai_response = call_glm4v(local_img_path, prompt)
        print("AI 识别结果：", ai_response)

        # 4. 解析坐标（可选，根据实际需求）
        import re
        coord_pattern = r'\((\d+),(\d+)\)'
        coords = re.findall(coord_pattern, ai_response)
        coords = [(int(x), int(y)) for x, y in coords]
        print("解析后的坐标：", coords)
    except Exception as e:
        print("识别失败：", e)

if __name__ == "__main__":
    local_image_demo()

from DrissionPage import ChromiumPage, ChromiumOptions

def web_screenshot_demo():
    """网页截图+GLM-4V 识别示例（验证码）"""
    # 1. 初始化浏览器
    co = ChromiumOptions().auto_port()
    page = ChromiumPage(co)
    try:
        # 2. 访问目标页面（示例：带 hCaptcha 的页面）
        page.get("https://你的目标网址.com")

        # 3. 定位验证码区域并截图
        captcha_ele = page.ele('.xxxxxx')
        screenshot_path = "web_captcha.png"
        captcha_ele.get_screenshot(screenshot_path)
        print(f"网页截图已保存：{screenshot_path}")

        # 4. 调用 GLM-4V 识别
        prompt = """ 分析这张验证码图片，返回所有'有尾巴的动物'的中心坐标，格式：[(x,y), (x,y)] 仅返回坐标，无其他文字。 """
        ai_response = call_glm4v(screenshot_path, prompt)
        print("验证码识别结果：", ai_response)
    finally:
        page.close()

if __name__ == "__main__":
    web_screenshot_demo()

def base64_image_demo():
    """Base64 编码图片调用 GLM-4V 示例"""
    # 1. 模拟获取 Base64 图片（实际场景可从网络/内存读取）
    # 方式 1：本地图片转 Base64（测试用）
    base64_img = encode_image_to_base64("captcha.png")

    # 方式 2：网络图片转 Base64（实际场景）
    # import requests
    # img_response = requests.get("https://xxx.com/captcha.png")
    # base64_img = base64.b64encode(img_response.content).decode('utf-8')

    # 2. 调用 GLM-4V（指定 is_base64=True）
    prompt = "识别这张图片中的所有动物名称，仅返回名称列表，用逗号分隔"
    ai_response = call_glm4v(base64_img, prompt, is_base64=True)
    print("Base64 图片识别结果：", ai_response)

if __name__ == "__main__":
    base64_image_demo()

Python 调用智谱 GLM-4V 实现图片视觉识别与验证码解析

Python 调用智谱 GLM-4V 实现图片视觉识别（本地/网页图片通用）

一、核心知识点

二、环境准备

1. 安装依赖

2. 智谱 AI 配置

三、通用封装：GLM-4V 调用核心函数

更多推荐文章

相关免费在线工具

四、场景 1：本地图片调用 GLM-4V

适用场景

完整示例（识别验证码）

五、场景 2：网页截图+GLM-4V 识别

适用场景

完整示例（DrissionPage 截图+GLM-4V 识别）

六、场景 3：Base64 编码图片调用 GLM-4V

适用场景

完整示例

七、避坑指南&优化建议

1. 常见问题解决

2. 优化技巧

3. 注意事项

八、总结

更多推荐文章

相关免费在线工具

Python 调用智谱 GLM-4V 实现图片视觉识别与验证码解析

Python 调用智谱 GLM-4V 实现图片视觉识别（本地/网页图片通用）

一、核心知识点

二、环境准备

1. 安装依赖

2. 智谱 AI 配置

三、通用封装：GLM-4V 调用核心函数

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、场景 1：本地图片调用 GLM-4V

适用场景

完整示例（识别验证码）

五、场景 2：网页截图+GLM-4V 识别

适用场景

完整示例（DrissionPage 截图+GLM-4V 识别）

六、场景 3：Base64 编码图片调用 GLM-4V

适用场景

完整示例

七、避坑指南&优化建议

1. 常见问题解决

2. 优化技巧

3. 注意事项

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具