Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装 | 极客日志

PythonAI算法

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

Python AI 大模型部署实战涵盖本地推理、API 服务化及 Docker 容器化方案。通过 transformers 或 llama.cpp 实现本地快速验证，利用 vLLM 或 FastAPI 构建高性能接口，结合 Docker 完成标准化交付。重点包括显存优化、并发调优及生产环境监控检查，为开发者提供从开发到上线的完整技术路径。

赛博行者发布于 2026/4/9更新于 2026/7/2031 浏览

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

随着开源大模型的爆发式增长，在本地与服务端部署 AI 大模型已成为开发者的核心技能。本文将从本地运行、API 服务化、Docker 容器封装三个维度，给出完整的生产级部署方案。

一、整体架构概览

阶段	关键任务
开发调试	模型选择与下载、本地直接运行
团队协作	API 服务化、性能调优
生产交付	Docker 容器封装、监控与运维

技术栈	推荐方案
推理引擎	llama.cpp / vLLM / Ollama
API 框架	FastAPI + vLLM / TGI
容器编排	Dockerfile + docker-compose

二、模型选型与技术栈（2026 主流方案）

维度	推荐方案	适用场景
本地推理	llama.cpp / Ollama	个人开发、低资源环境
GPU 推理	vLLM / TGI	高并发、低延迟
API 框架	FastAPI	轻量、高性能
容器化	Docker + NVIDIA Container Toolkit	标准化部署
编排	docker-compose / K8s	多服务协同

三、方案一：本地运行大模型

3.1 环境准备

首先创建独立虚拟环境，避免依赖冲突。Linux/macOS 使用 source llm-env/bin/activate，Windows 则是 llm-env\Scripts\activate。

# 安装核心依赖
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install transformers accelerate sentencepiece

3.2 使用 transformers 加载模型

这里以 Qwen2.5-72B 为例，注意显存分配策略。如果资源有限，建议优先尝试量化版本。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map=,  
    torch_dtype=torch.float16,
    trust_remote_code=,
)

 () -> :
    messages = [{: , : prompt}]
    input_ids = tokenizer.apply_chat_template(
        messages, return_tensors=
    ).to(model.device)
     torch.no_grad():
        outputs = model.generate(
            input_ids,
            max_new_tokens=max_new_tokens,
            temperature=,
            top_p=,
            do_sample=,
        )
    response = tokenizer.decode(
        outputs[][input_ids.shape[-]:], skip_special_tokens=
    )
     response

 __name__ == :
    result = chat()
    (result)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 安装 llama-cpp-python（带 CUDA 支持）
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

# 下载 GGUF 格式模型
huggingface-cli download \
  Qwen/Qwen2.5-7B-Instruct-GGUF \
  qwen2.5-7b-instruct-q4_k_m.gguf \
  --localdir ./models

from llama_cpp import Llama

llm = Llama(
    model_path="./models/qwen2.5-7b-instruct-q4_k_m.gguf",
    n_ctx=4096,
    n_gpu_layers=-1,  # 全部卸载到 GPU
    verbose=False,
)
response = llm.create_chat_completion(
    messages=[{"role": "user", "content": "解释 Transformer 的自注意力机制"}],
    temperature=0.7,
    max_tokens=1024,
)
print(response["choices"][0]["message"]["content"])

# 直接以 OpenAI 兼容模式启动
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \
 --served-model-name qwen-72b \
--host 0.0.0.0 \
--port 8000 \
 --max-model-len 4096 \
 --gpu-memory-utilization 0.90 \
 --tensor-parallel-size 2

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed",  # 本地部署无需密钥
)
response = client.chat.completions.create(
    model="qwen-72b",
    messages=[
        {"role": "system", "content": "你是一位资深 Python 工程师。"},
        {"role": "user", "content": "如何优化 asyncio 的并发性能？"},
    ],
    temperature=0.7,
    max_tokens=2048,
)
print(response.choices[0].message.content)

# api_server.py
import uuid
import time
from contextlib import asynccontextmanager
import torch
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field
from transformers import AutoModelForCausalLM, AutoTokenizer

# ---------- 全局模型 ----------
model = None
tokenizer = None

@asynccontextmanager
async def lifespan(app: FastAPI):
    """应用生命周期：启动时加载模型，关闭时释放资源。"""
    global model, tokenizer
    model_id = "Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4"
    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_id, device_map="auto", torch_dtype=torch.float16, trust_remote_code=True
    )
    yield
    del model, tokenizer
    torch.cuda.empty_cache()

app = FastAPI(title="LLM API Service", lifespan=lifespan)

# ---------- 请求/响应模型 ----------
class ChatRequest(BaseModel):
    prompt: str = Field(..., min_length=1, max_length=8192)
    max_tokens: int = Field(default=1024, ge=1, le=4096)
    temperature: float = Field(default=0.7, ge=0.0, le=2.0)

class ChatResponse(BaseModel):
    id: str
    response: str
    usage_tokens: int
    latency_ms: float

# ---------- 推理接口 ----------
@app.post("/v1/chat", response_model=ChatResponse)
async def chat_completion(req: ChatRequest):
    if model is None:
        raise HTTPException(status_code=503, detail="模型尚未加载完成")
    start = time.perf_counter()
    input_ids = tokenizer.apply_chat_template(
        [{"role": "user", "content": req.prompt}], return_tensors="pt",
    ).to(model.device)
    with torch.no_grad():
        outputs = model.generate(
            input_ids, max_new_tokens=req.max_tokens, temperature=req.temperature, top_p=0.9, do_sample=True,
        )
    generated = outputs[0][input_ids.shape[-1]:]
    text = tokenizer.decode(generated, skip_special_tokens=True)
    latency = (time.perf_counter() - start) * 1000
    return ChatResponse(
        id=str(uuid.uuid4()), response=text, usage_tokens=len(generated), latency_ms=round(latency, 2)
    )

# ---------- 健康检查 ----------
@app.get("/health")
async def health():
    return {
        "status": "ok",
        "model_loaded": model is not None,
        "gpu_available": torch.cuda.is_available(),
    }

uvicorn api_server:app --host 0.0.0.0 --port 8000 --workers 1

# ---------- 构建阶段 ----------
FROM nvidia/cuda:12.4.1-devel-ubuntu22.04 AS builder
ENV DEBIAN_FRONTEND=noninteractive \
    PYTHONUNBUFFERED=1
RUN apt-get update && apt-get install -y --no-install-recommends \
    python3.11 python3.11-venv python3-pip \
    && rm -rf /var/lib/apt/lists/*

RUN python3.11 -m venv /opt/venv
ENV PATH="/opt/venv/bin:$PATH"
COPY requirements.txt /tmp/requirements.txt
RUN pip install --no-cache-dir -r /tmp/requirements.txt

# ---------- 运行阶段 ----------
FROM nvidia/cuda:12.4.1-runtime-ubuntu22.04
RUN apt-get update && apt-get install -y --no-install-recommends \
    python3.11 \
    && rm -rf /var/lib/apt/lists/*

COPY --from=builder /opt/venv /opt/venv
ENV PATH="/opt/venv/bin:$PATH"
WORKDIR /app
COPY api_server.py .
EXPOSE 8000
CMD ["uvicorn", "api_server:app", "--host", "0.0.0.0", "--port", "8000"]

version: "3.9"
services:
  llm-api:
    build:
      context: .
      dockerfile: Dockerfile
    container_name: llm-api-server
    ports:
      - "8000:8000"
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface  # 模型缓存持久化
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
      - MODEL_ID=Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4
      - MAX_MODEL_LEN=4096
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    restart: unless-stopped
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
      interval: 30s
      timeout: 10s
      retries: 3
  redis:
    image: redis:7-alpine
    container_name: llm-redis
    ports:
      - "6379:6379"
    restart: unless-stopped

# 构建镜像
docker-compose build
# 启动服务（后台运行）
docker-compose up -d
# 查看日志
docker-compose logs -f llm-api
# 测试接口
curl -X POST http://localhost:8000/v1/chat \
-H"Content-Type: application/json" \
-d'{"prompt": "解释 Docker 的多阶段构建", "max_tokens": 512}'

参数	说明	推荐值
`gpu_memory_utilization`	GPU 显存使用率上限	0.85 ~ 0.95
`max_model_len`	最大上下文长度	按需设置，影响 KV Cache
`tensor_parallel_size`	张量并行 GPU 数	匹配物理 GPU 数
`quantization`	量化方法	GPTQ-Int4 / AWQ
`enforce_eager`	禁用 CUDA Graph（调试用）	生产环境关闭

# 性能基准测试脚本
import time
import statistics
import requests

API_URL = "http://localhost:8000/v1/chat"
PROMPT = "请用 200 字介绍 Python 的 GIL 机制。"
NUM_REQUESTS = 50
latencies = []

for i in range(NUM_REQUESTS):
    start = time.perf_counter()
    resp = requests.post(API_URL, json={"prompt": PROMPT, "max_tokens": 256})
    latencies.append((time.perf_counter() - start) * 1000)

print(f"请求次数：{NUM_REQUESTS}")
print(f"平均延迟：{statistics.mean(latencies):.1f} ms")
print(f"P50 延迟：{statistics.median(latencies):.1f} ms")
print(f"P95 延迟：{sorted(latencies)[int(len(latencies)*0.95)]:.1f} ms")
print(f"吞吐量：{NUM_REQUESTS /(sum(latencies)/1000):.1f} req/s")

检查项	工具/方案
GPU 监控	`nvidia-smi dmon`、Prometheus DCGM Exporter
API 指标	Prometheus + Grafana
日志	Loki / ELK Stack
限流	FastAPI `slowapi` 或 Nginx `limit_req`
模型版本	MLflow / DVC
安全	API Key 鉴权 + 输入长度/内容过滤

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

一、整体架构概览

二、模型选型与技术栈（2026 主流方案）

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

关键调优参数

七、生产部署检查清单

八、总结

更多推荐文章

相关免费在线工具

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

一、整体架构概览

二、模型选型与技术栈（2026 主流方案）

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

关键调优参数

七、生产部署检查清单

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具