Qwen3.5-35B-A3B-AWQ-4bit实战教程：vLLM推理引擎与Gradio前端通信机制

优质文章学习记录

11 Apr 2026 — 5 min read

Qwen3.5-35B-A3B-AWQ-4bit实战教程：vLLM推理引擎与Gradio前端通信机制

1. 模型概述

Qwen3.5-35B-A3B-AWQ-4bit是一个面向视觉多模态理解的量化模型，支持图片理解、图文问答、视觉描述等能力。该模型特别适合开发图片分析、图中内容理解和图文对话类应用。

1.1 核心能力

能力	说明	典型应用场景
图片理解	分析上传图片内容	商品识别、场景分析
图文问答	围绕图片进行多轮提问	智能客服、教育辅导
视觉描述	生成图片的文字描述	内容创作、无障碍服务
中文输出	支持中文问答交互	本土化应用开发

1.2 技术特点

量化压缩：采用4bit AWQ量化技术，大幅降低显存需求
多模态架构：同时处理视觉和语言输入
双卡推理：已验证在双卡24GB环境下稳定运行
高效部署：内置vLLM推理引擎，支持高并发请求

2. 环境准备与部署

2.1 硬件要求

GPU：至少2张24GB显存的NVIDIA显卡
内存：建议64GB以上
存储：50GB可用空间

2.2 快速部署步骤

下载预构建的Docker镜像

检查服务状态：

supervisorctl status qwen35awq-backend supervisorctl status qwen35awq-web

启动容器服务：

docker run -it --gpus all -p 7860:7860 qwen35-awq-image

2.3 访问方式

如果平台已映射Web地址，可直接访问生成的7860端口页面。若无外网映射，可通过SSH隧道访问：

ssh -L 7860:127.0.0.1:7860 -p 32468 root@your-server-address

然后在本地浏览器打开：

http://127.0.0.1:7860

3. 图文对话功能实战

3.1 基础使用流程

上传一张清晰图片
在输入框中输入问题（如"描述图片中的主要内容"）
点击"发送"按钮
等待模型返回回答

3.2 进阶使用技巧

多轮对话：可以围绕同一张图片连续提问
问题设计：
- 初级：描述性提问（"图中有什么？"）
- 中级：细节提问（"左边人物的穿着是什么颜色？"）
- 高级：推理提问（"这张照片可能是在什么季节拍摄的？"）
图片选择：优先使用主体明确、分辨率适中的图片

3.3 代码示例：自定义前端

以下是通过Gradio自定义前端界面的示例代码：

import gradio as gr def process_image_question(image, question): # 这里是与vLLM后端通信的逻辑 response = query_backend(image, question) return response interface = gr.Interface( fn=process_image_question, inputs=[gr.Image(type="pil"), gr.Textbox(label="问题")], outputs=gr.Textbox(label="回答"), title="图文对话系统" ) interface.launch(server_port=7860)

4. vLLM推理引擎配置

4.1 核心参数说明

参数	说明	推荐值
tensor-parallel-size	张量并行数	2
max-model-len	最大上下文长度	4096
enforce-eager	禁用cudagraph	True
quantization	量化方法	awq
dtype	推理精度	float16

4.2 启动命令示例

python -m vllm.entrypoints.api_server \ --model Qwen35B-AWQ \ --tensor-parallel-size 2 \ --quantization awq \ --max-model-len 4096 \ --enforce-eager

5. 通信机制详解

5.1 前后端交互流程

前端(Gradio)接收用户上传的图片和问题
将图片编码为base64格式
通过HTTP POST请求发送到vLLM后端
vLLM处理请求并返回JSON格式响应
前端解析并展示回答

5.2 请求示例

import requests import base64 def query_backend(image_path, question): with open(image_path, "rb") as image_file: encoded_image = base64.b64encode(image_file.read()).decode('utf-8') payload = { "image": encoded_image, "question": question } response = requests.post( "http://localhost:8000/generate", json=payload ) return response.json()["response"]

6. 性能优化建议

6.1 图片处理优化

适当压缩图片尺寸（建议长边不超过1024px）
使用常见的图片格式（JPEG/PNG）
避免上传多张图片同时处理

6.2 问题设计技巧

问题尽量简洁明确
复杂问题可以拆分为多个简单问题
避免过于开放的问题（如"这张图片怎么样？"）

6.3 系统监控

建议定期检查以下指标：

# 查看GPU使用情况 nvidia-smi # 检查服务日志 tail -f /root/workspace/qwen35awq-backend.log # 监控API响应时间 curl -o /dev/null -s -w '%{time_total}\n' http://localhost:8000/health

7. 常见问题排查

7.1 服务启动问题

症状：后端服务无法启动
排查步骤：

检查日志：tail -100 /root/workspace/qwen35awq-backend.log
确认参数：特别是tensor-parallel-size是否与GPU数量匹配
检查端口：ss -ltnp | grep 8000

7.2 响应速度慢

可能原因：

图片过大
问题过于复杂
GPU资源不足

解决方案：

优化图片尺寸
简化问题
检查GPU使用情况

7.3 回答质量不佳

改进方法：

提供更清晰的图片
重新组织问题表述
尝试从不同角度提问

8. 总结与展望

Qwen3.5-35B-A3B-AWQ-4bit结合vLLM推理引擎和Gradio前端，提供了一个高效的图文对话解决方案。通过本教程，您应该已经掌握了：

模型的基本部署方法
前后端通信机制
性能优化技巧
常见问题排查方法

未来可以探索：

自定义模型微调
集成到更复杂的应用系统
开发批量处理功能

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

OpenClaw实操指南12｜飞书机器人从0到1：创建、配置、打通OpenClaw完整流程

飞书是目前和OpenClaw配合最丝滑的IM平台。但很多人卡在这一步——飞书开发者后台又多又复杂，配置哪些权限、订阅哪些事件、回调地址怎么填……一不小心就错了，然后发消息没反应，不知道问题出在哪。这篇是飞书机器人配置的完整图解版教程。每一步都有截图说明，常见报错全部给出解法。跟着做，30分钟之内飞书机器人必定跑通。核心概要这篇解决什么问题？从零创建飞书自建应用，完成所有配置，打通与OpenClaw的连接，让你的AI助手在飞书里真正活起来。主线逻辑：飞书开发者后台 → 创建自建应用 ↓ 开通机器人能力 + 配置权限 ↓ 事件订阅（接收用户消息） ↓ 将App ID / Secret填入OpenClaw ↓ 发布应用版本 ↓ 飞书搜索机器人 → 发消息 → 验证成功前置条件确认开始之前，确认以下内容已就绪： * ✅ OpenClaw已部署并运行（本地或云端，参见第06-10篇） * ✅ 飞书账号（个人版或企业版均可） * ✅ 如果是企业飞书，需要有管理员权限

安卓手机安装Termux+AstrBot+NapCat搭建QQ个人机器人【非官方】（简易版）

前言好久不见，亲爱的友友们，这次我来了！这次我学会了用旧安卓手机安装termux软件搭建了一个AstrBotQQ机器人（大模型可能跑不了），我使用的旧安卓手机是vivoY31s标准版，手机型号有点久，到时能用就行了。其实方法都通用差不多。目录目录前言目录一、简介 1.Termux 2.AstrBot 3.NapCat 二、步骤 1. 安装Termux 2. 更新系统包打开 Termux，依次执行以下命令，更新软件源并安装基础工具。换源 (可选) 3. 申请存储权限正式部署安装 proot-distro 及其他必须组件登录 Ubuntu环境添加第三方PPA 安装 Python 克隆 AstrBot 仓库运行 AstrBot

基于FPGA的数字频率计设计：完整指南

从零构建高性能数字频率计：FPGA实战全解析你有没有遇到过这样的场景？手头有个信号发生器，输出一个神秘的方波，你想知道它的频率到底是多少——是1.234 kHz还是1.235 kHz？普通万用表只能给你个大概，示波器又太“重”，而我们真正需要的，是一个快速、精准、可定制的测量工具。今天，我们就来亲手打造这样一个利器：基于FPGA的高精度数字频率计。这不是简单的计数实验，而是一套完整工程级方案，覆盖从微弱信号采集到纳秒级时间计量的全过程。无论你是电子爱好者、嵌入式开发者，还是正在准备毕业设计的学生，这篇文章都会带你走通每一个关键环节。为什么非要用FPGA做频率计？先问个问题：为什么不直接用单片机？答案很简单—— 速度和确定性。假设你要测一个100 MHz的信号，每秒要处理一亿个上升沿。传统MCU靠中断或定时器轮询？别想了，光响应延迟就可能吃掉几个周期。更别说多任务调度带来的抖动。而FPGA不同，它是硬件并行运行的，所有逻辑同时工作，没有“下一条指令”的概念。

Flutter 三方库 eip55 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、严谨、符合 Web3 标准的以太坊地址校验与防串改引擎

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 eip55 的鸿蒙化适配指南 - 在鸿蒙系统上构建极致、严谨、符合 Web3 标准的以太坊地址校验与防串改引擎在鸿蒙（OpenHarmony）系统的区块链钱包应用、数字资产管理工具（如鸿蒙版 NFT 浏览器）或需要处理加密货币转账的场景中，如何确保用户输入的以太坊（Ethereum）地址既符合基本格式，又通过了大小写混合的校验和（Checksum）验证，防止因为单个字符手误导致的资产永久丢失？eip55 为开发者提供了一套工业级的、基于 EIP-55 提案的地址转换与验证方案。本文将深入实战其在鸿蒙 Web3 安全基座中的应用。前言什么是 EIP-55？它是由以太坊创始人 Vitalik Buterin 提出的地址校验和提案。通过在地址字符串中引入特定的。大小写混合模式（基于 Keccak-256 哈希）