2026 年 Python AI 大模型部署全攻略：本地运行 + API 服务 + Docker 封装 | 极客日志

Python

2026 年 Python AI 大模型部署全攻略：本地运行 + API 服务 + Docker 封装

> 随着开源大模型的爆发式增长，2026 年在本地与服务端部署 AI 大模型已成为开发者的核心技能。将从**本地运行**、**API 服务化**、**Docker 容器封装**三个维度，给出完整的生产级部署方案。 * * 一、整体架构概览开发调试团队协作生产交付模型选择与下载部署方式本地直接运行 API 服务化 Docker 容器封装 llama.cpp / vLLM / Olla…

城市逃兵发布于 2026/4/6更新于 2026/7/1042K 浏览

2026 年 Python AI 大模型部署全攻略：本地运行 + API 服务 + Docker 封装

随着开源大模型的爆发式增长，2026 年在本地与服务端部署 AI 大模型已成为开发者的核心技能。本文将从本地运行、API 服务化、Docker 容器封装三个维度，给出完整的生产级部署方案。

一、整体架构概览

开发调试

团队协作

生产交付

模型选择与下载

部署方式

本地直接运行

API 服务化

Docker 容器封装

llama.cpp / vLLM / Ollama

FastAPI + vLLM / TGI

Dockerfile + docker-compose

性能调优

监控与运维

二、模型选型与技术栈（2026 主流方案）

维度	推荐方案	适用场景
本地推理	llama.cpp / Ollama	个人开发、低资源环境
GPU 推理	vLLM / TGI	高并发、低延迟
API 框架	FastAPI	轻量、高性能
容器化	Docker + NVIDIA Container Toolkit	标准化部署
编排	docker-compose / K8s	多服务协同

35%25%15%12%8%5%2026 年主流推理引擎市场份额（估算）vLLMOllamallama.cppTGITensorRT-LLM其他

三、方案一：本地运行大模型

3.1 环境准备

# 创建独立虚拟环境 python -m venv llm-env source llm-env/bin/activate # Linux/macOS# llm-env\Scripts\activate # Windows# 安装核心依赖 pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124 pip install transformers accelerate sentencepiece

3.2 使用 transformers 加载模型

import torch from transformers import AutoModelForCausalLM, AutoTokenizer model_id ="Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4" tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, device_map="auto",# 自动分配 GPU/CPU torch_dtype=torch.float16, trust_remote_code,)defchat(prompt:str, max_new_tokens:)str: messages [{"role":"user","content": prompt}] input_ids  tokenizer.apply_chat_template( messages, return_tensors"pt").(model.device) torch.no_grad(): outputs  model.generate( input_ids, max_new_tokensmax_new_tokens, temperature, top_p, do_sample,) response  tokenizer.decode( outputs[][input_ids.shape[]:], skip_special_tokens,) response if __name__ "__main__":   chat("用 Python 写一个快速排序算法，并解释其时间复杂度。")print()

相关免费在线工具

curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online
HTML转Markdown
将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online
JSON 压缩
通过删除不必要的空白来缩小和压缩JSON。在线工具，JSON 压缩在线工具，online

# 安装 llama-cpp-python（带 CUDA 支持）CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python # 下载 GGUF 格式模型 huggingface-cli download \ Qwen/Qwen2.5-7B-Instruct-GGUF \ qwen2.5-7b-instruct-q4_k_m.gguf \--localdir ./models

from llama_cpp import Llama llm = Llama( model_path="./models/qwen2.5-7b-instruct-q4_k_m.gguf", n_ctx=4096, n_gpu_layers=-1,# 全部卸载到 GPU verbose=False,) response = llm.create_chat_completion( messages=[{"role":"user","content":"解释 Transformer 的自注意力机制"}], temperature=0.7, max_tokens=1024,)print(response["choices"][0]["message"]["content"])

# 直接以 OpenAI 兼容模式启动 python -m vllm.entrypoints.openai.api_server \--model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \ --served-model-name qwen-72b \--host0.0.0.0 \--port8000\ --max-model-len 4096\ --gpu-memory-utilization 0.90\ --tensor-parallel-size 2

from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="not-needed",# 本地部署无需密钥) response = client.chat.completions.create( model="qwen-72b", messages=[{"role":"system","content":"你是一位资深 Python 工程师。"},{"role":"user","content":"如何优化 asyncio 的并发性能？"},], temperature=0.7, max_tokens=2048,)print(response.choices[0].message.content)

# api_server.pyimport uuid import time from contextlib import asynccontextmanager import torch from fastapi import FastAPI, HTTPException from pydantic import BaseModel, Field from transformers import AutoModelForCausalLM, AutoTokenizer # ---------- 全局模型 ---------- model =None tokenizer =None@asynccontextmanagerasyncdeflifespan(app: FastAPI):"""应用生命周期：启动时加载模型，关闭时释放资源。"""global model, tokenizer model_id ="Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4" tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_id, device_map="auto", torch_dtype=torch.float16, trust_remote_code=True,)yielddel model, tokenizer torch.cuda.empty_cache() app = FastAPI(title="LLM API Service", lifespan=lifespan)# ---------- 请求/响应模型 ----------classChatRequest(BaseModel): prompt:str= Field(..., min_length=1, max_length=8192) max_tokens:int= Field(default=1024, ge=1, le=4096) temperature:float= Field(default=0.7, ge=0.0, le=2.0)classChatResponse(BaseModel):id:str response:str usage_tokens:int latency_ms:float# ---------- 推理接口 [email protected]("/v1/chat", response_model=ChatResponse)asyncdefchat_completion(req: ChatRequest):if model isNone:raise HTTPException(status_code=503, detail="模型尚未加载完成") start = time.perf_counter() input_ids = tokenizer.apply_chat_template([{"role":"user","content": req.prompt}], return_tensors="pt",).to(model.device)with torch.no_grad(): outputs = model.generate( input_ids, max_new_tokens=req.max_tokens, temperature=req.temperature, top_p=0.9, do_sample=True,) generated = outputs[0][input_ids.shape[-1]:] text = tokenizer.decode(generated, skip_special_tokens=True) latency =(time.perf_counter()- start)*1000return ChatResponse(id=str(uuid.uuid4()), response=text, usage_tokens=len(generated), latency_ms=round(latency,2),)# ---------- 健康检查 ----------@app.get("/health")asyncdefhealth():return{"status":"ok","model_loaded": model isnotNone,"gpu_available": torch.cuda.is_available(),}

uvicorn api_server:app --host0.0.0.0 --port8000--workers1

# ---------- 构建阶段 ---------- FROM nvidia/cuda:12.4.1-devel-ubuntu22.04 AS builder ENV DEBIAN_FRONTEND=noninteractive \ PYTHONUNBUFFERED=1 RUN apt-get update && apt-get install -y --no-install-recommends \ python3.11 python3.11-venv python3-pip \ && rm -rf /var/lib/apt/lists/* RUN python3.11 -m venv /opt/venv ENV PATH="/opt/venv/bin:$PATH" COPY requirements.txt /tmp/requirements.txt RUN pip install --no-cache-dir -r /tmp/requirements.txt # ---------- 运行阶段 ---------- FROM nvidia/cuda:12.4.1-runtime-ubuntu22.04 RUN apt-get update && apt-get install -y --no-install-recommends \ python3.11 \ && rm -rf /var/lib/apt/lists/* COPY --from=builder /opt/venv /opt/venv ENV PATH="/opt/venv/bin:$PATH" WORKDIR /app COPY api_server.py . EXPOSE 8000 CMD ["uvicorn", "api_server:app", "--host", "0.0.0.0", "--port", "8000"]

version:"3.9"services:llm-api:build:context: . dockerfile: Dockerfile container_name: llm-api-server ports:-"8000:8000"volumes:- ~/.cache/huggingface:/root/.cache/huggingface # 模型缓存持久化environment:- NVIDIA_VISIBLE_DEVICES=all - MODEL_ID=Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4 - MAX_MODEL_LEN=4096 deploy:resources:reservations:devices:-driver: nvidia count: all capabilities:[gpu]restart: unless-stopped healthcheck:test:["CMD","curl","-f","http://localhost:8000/health"]interval: 30s timeout: 10s retries:3redis:image: redis:7-alpine container_name: llm-redis ports:-"6379:6379"restart: unless-stopped

# 构建镜像docker-compose build # 启动服务（后台运行）docker-compose up -d# 查看日志docker-compose logs -f llm-api # 测试接口curl-X POST http://localhost:8000/v1/chat \-H"Content-Type: application/json"\-d'{"prompt": "解释 Docker 的多阶段构建", "max_tokens": 512}'

参数	说明	推荐值
`gpu_memory_utilization`	GPU 显存使用率上限	0.85 ~ 0.95
`max_model_len`	最大上下文长度	按需设置，影响 KV Cache
`tensor_parallel_size`	张量并行 GPU 数	匹配物理 GPU 数
`quantization`	量化方法	GPTQ-Int4 / AWQ
`enforce_eager`	禁用 CUDA Graph（调试用）	生产环境关闭

# 性能基准测试脚本import time import statistics import requests API_URL ="http://localhost:8000/v1/chat" PROMPT ="请用 200 字介绍 Python 的 GIL 机制。" NUM_REQUESTS =50 latencies =[]for i inrange(NUM_REQUESTS): start = time.perf_counter() resp = requests.post(API_URL, json={"prompt": PROMPT,"max_tokens":256}) latencies.append((time.perf_counter()- start)*1000)print(f"请求次数: {NUM_REQUESTS}")print(f"平均延迟: {statistics.mean(latencies):.1f} ms")print(f"P50 延迟: {statistics.median(latencies):.1f} ms")print(f"P95 延迟: {sorted(latencies)[int(len(latencies)*0.95)]:.1f} ms")print(f"吞吐量: {NUM_REQUESTS /(sum(latencies)/1000):.1f} req/s")

检查项	工具/方案
GPU 监控	`nvidia-smi dmon`、Prometheus DCGM Exporter
API 指标	Prometheus + Grafana
日志	Loki / ELK Stack
限流	FastAPI `slowapi` 或 Nginx `limit_req`
模型版本	MLflow / DVC
安全	API Key 鉴权 + 输入长度/内容过滤

2026 年 Python AI 大模型部署全攻略：本地运行 + API 服务 + Docker 封装

一、整体架构概览

二、模型选型与技术栈（2026 主流方案）

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

关键调优参数

七、生产部署检查清单

八、总结

更多推荐文章

相关免费在线工具

2026 年 Python AI 大模型部署全攻略：本地运行 + API 服务 + Docker 封装

一、整体架构概览

二、模型选型与技术栈（2026 主流方案）

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

关键调优参数

七、生产部署检查清单

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具