DeepSeek-R1-Distill-Qwen-1.5B代码实例：Python API调用完整示例

Ne0inhk

21 Mar 2026 — 8 min read

DeepSeek-R1-Distill-Qwen-1.5B代码实例：Python API调用完整示例

1. 引言

1.1 业务场景描述

随着大模型在边缘设备和轻量化部署场景中的需求日益增长，如何高效地将高性能语言模型集成到实际应用中成为工程落地的关键挑战。DeepSeek-R1-Distill-Qwen-1.5B作为一款经过知识蒸馏优化的轻量级模型，在保持较强推理能力的同时显著降低了资源消耗，适用于对延迟敏感、算力受限的应用环境。

1.2 痛点分析

传统大模型部署往往面临显存占用高、推理延迟长、服务启动复杂等问题，尤其在T4或A10等中低端GPU上难以实现实时响应。此外，API接口不统一、调用方式多样也增加了开发成本。因此，亟需一套标准化的服务部署与调用方案来提升开发效率。

1.3 方案预告

本文将详细介绍如何使用vLLM框架部署 DeepSeek-R1-Distill-Qwen-1.5B 模型，并通过OpenAI兼容的Python客户端进行本地API调用。涵盖模型服务启动、日志验证、同步/流式对话测试等关键环节，提供可直接运行的完整代码示例，帮助开发者快速完成模型集成。

2. DeepSeek-R1-Distill-Qwen-1.5B模型介绍

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术融合R1架构优势打造的轻量化版本。其核心设计目标在于：

参数效率优化：通过结构化剪枝与量化感知训练，将模型参数量压缩至1.5B级别，同时保持85%以上的原始模型精度（基于C4数据集的评估）。
任务适配增强：在蒸馏过程中引入领域特定数据（如法律文书、医疗问诊），使模型在垂直场景下的F1值提升12–15个百分点。
硬件友好性：支持INT8量化部署，内存占用较FP32模式降低75%，在NVIDIA T4等边缘设备上可实现实时推理。

该模型特别适合需要低延迟、高并发的语言理解与生成任务，例如智能客服、文档摘要、代码辅助生成等场景。

3. DeepSeek-R1 系列使用建议

我们建议在使用 DeepSeek-R1 系列模型时（包括基准测试），遵循以下配置以达到预期性能：

将温度设置在 0.5–0.7 之间（推荐 0.6），以防止出现无休止的重复或不连贯的输出。
避免添加系统提示；所有指令都应包含在用户提示中。
对于数学问题，建议在您的提示中加入如下指令：“请逐步推理，并将最终答案放在 \boxed{} 内。”
在评估模型性能时，建议进行多次测试并取结果平均值。

此外，我们观察到 DeepSeek-R1 系列模型在回答某些查询时倾向于绕过思维模式（即输出 \n\n），这可能会影响模型的表现。为确保模型进行充分的推理，我们建议强制模型在每次输出开始时使用 \n。

这些最佳实践有助于充分发挥模型潜力，避免因输入格式不当导致的性能下降。

4. 使用vLLM启动DeepSeek-R1-Distill-Qwen-1.5B模型服务

4.1 启动命令说明

使用 vLLM 提供的 api_server.py 脚本可以快速启动一个 OpenAI 兼容的 RESTful 接口服务。以下是典型启动命令：

python -m vllm.entrypoints.api_server \ --host 0.0.0.0 \ --port 8000 \ --model /path/to/DeepSeek-R1-Distill-Qwen-1.5B \ --tensor-parallel-size 1 \ --dtype auto \ --quantization awq \ --max-model-len 4096 > deepseek_qwen.log 2>&1 &

说明：--host 0.0.0.0 允许外部访问；--port 8000 设定服务端口；--quantization awq 启用AWQ量化以节省显存；日志重定向至 deepseek_qwen.log，便于后续查看。

确保模型路径正确且已下载完成，推荐使用HuggingFace或官方镜像源获取模型权重。

5. 查看DeepSeek-R1-Distill-Qwen-1.5B模型服务是否启动成功

5.1 进入工作目录

cd /root/workspace

5.2 查看启动日志

cat deepseek_qwen.log

若日志中出现类似以下内容，则表示模型服务已成功加载并运行：

INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit) INFO: Started reloader process [12345] using statreload INFO: Started server process [12347] INFO: Waiting for application startup. INFO: Application startup complete.

同时会显示模型加载进度、分词器初始化信息以及可用的最大上下文长度。

当看到 Application startup complete. 提示后，即可认为服务准备就绪，可接受外部请求。

6. 测试模型服务部署是否成功

6.1 打开Jupyter Lab

可通过浏览器访问 Jupyter Lab 界面（通常为 http://<server_ip>:8888），创建新的 Python Notebook 开始测试。

6.2 调用模型测试

以下是一个完整的 Python 客户端实现，封装了同步调用、流式输出和简化接口三种常用模式。

from openai import OpenAI import requests import json class LLMClient: def __init__(self, base_url="http://localhost:8000/v1"): self.client = OpenAI( base_url=base_url, api_key="none" # vLLM通常不需要API密钥 ) self.model = "DeepSeek-R1-Distill-Qwen-1.5B" def chat_completion(self, messages, stream=False, temperature=0.7, max_tokens=2048): """基础的聊天完成功能""" try: response = self.client.chat.completions.create( model=self.model, messages=messages, temperature=temperature, max_tokens=max_tokens, stream=stream ) return response except Exception as e: print(f"API调用错误: {e}") return None def stream_chat(self, messages): """流式对话示例""" print("AI: ",, flush=True) try: stream = self.chat_completion(messages, stream=True) if stream: for chunk in stream: if chunk.choices[0].delta.content is not None: content = chunk.choices[0].delta.content print(content,, flush=True) full_response += content print() # 换行 return full_response except Exception as e: print(f"流式对话错误: {e}") return "" def simple_chat(self, user_message, system_message=None): """简化版对话接口""" messages = [] if system_message: messages.append({"role": "system", "content": system_message}) messages.append({"role": "user", "content": user_message}) response = self.chat_completion(messages) if response and response.choices: return response.choices[0].message.content return "请求失败" # 使用示例 if __name__ == "__main__": # 初始化客户端 llm_client = LLMClient() # 测试普通对话 print("=== 普通对话测试 ===") response = llm_client.simple_chat( "请用中文介绍一下人工智能的发展历史", "你是一个有帮助的AI助手" ) print(f"回复: {response}") print("\n=== 流式对话测试 ===") messages = [ {"role": "system", "content": "你是一个诗人"}, {"role": "user", "content": "写两首关于秋天的五言绝句"} ] llm_client.stream_chat(messages)

输出示例说明：

普通对话测试：返回完整文本响应，适用于非交互式场景。
流式对话测试：逐字输出生成内容，模拟实时对话体验，适合前端集成。

正常调用应显示如下效果：

7. 实践问题与优化建议

7.1 常见问题排查

问题现象	可能原因	解决方法
连接被拒绝	服务未启动或端口错误	检查 `deepseek_qwen.log` 和进程状态
返回空响应	输入消息格式错误	确保 `messages` 是角色-内容对列表
显存不足	未启用量化或batch过大	添加 `--quantization awq` 并限制 `max_model_len`
响应卡顿	未开启Tensor Parallel	若有多卡，设置 `--tensor-parallel-size N`

7.2 性能优化建议

启用批处理（Batching）：vLLM 默认支持动态批处理，可通过调整 --max-num-seqs 控制并发数。
使用KV Cache复用：对于多轮对话，维护 conversation_id 可提升连续交互效率。
前端流式渲染：结合 SSE 或 WebSocket 实现网页端逐字输出，提升用户体验。
缓存高频请求：对常见问答对建立本地缓存层，减少重复推理开销。

8. 总结

8.1 实践经验总结

本文详细演示了从模型服务部署到Python API调用的全流程，重点包括：

使用 vLLM 快速搭建 OpenAI 兼容接口；
通过自定义 LLMClient 类封装常用功能；
支持同步与流式两种调用模式，满足不同应用场景；
提供日志检查与问题排查指南，保障服务稳定性。

8.2 最佳实践建议

始终使用日志监控服务状态，避免盲目调用；
优先采用流式输出提升用户感知响应速度；
严格控制 temperature 参数（推荐 0.6）以保证输出质量稳定。

该方案已在多个边缘计算项目中验证，具备良好的可移植性和扩展性，适用于构建轻量级AI应用服务。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

DeepSeek-R1-Distill-Qwen-1.5B代码实例：Python API调用完整示例

Ne0inhk