Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装 | 极客日志

PythonAI算法

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

Python AI 大模型部署涉及本地推理、API 服务化及容器化封装。本地运行推荐使用 transformers 或 llama.cpp 快速验证；API 服务化可采用 vLLM 提供 OpenAI 兼容接口或 FastAPI 自定义逻辑；Docker 封装通过多阶段构建优化镜像体积。生产环境需关注显存管理、性能调优及监控告警，结合 vLLM 与 Prometheus 实现高可用部署。

ServerBase发布于 2026/4/9更新于 2026/5/2414 浏览

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

随着开源大模型的快速发展，在本地与服务端高效部署 AI 大模型已成为开发者的必备技能。本文将围绕本地推理、API 服务化以及容器化封装三个核心维度，分享一套生产级的落地方案。

一、整体架构概览

整个部署流程通常涵盖从开发调试到团队协作，最终交付生产环境。技术选型上，我们主要关注模型加载方式（如 llama.cpp、vLLM）、服务框架（FastAPI）以及容器编排（Docker）。性能调优与监控运维则是保障稳定性的关键。

二、模型选型与技术栈

维度	推荐方案	适用场景
本地推理	llama.cpp / Ollama	个人开发、低资源环境
GPU 推理	vLLM / TGI	高并发、低延迟
API 框架	FastAPI	轻量、高性能
容器化	Docker + NVIDIA Container Toolkit	标准化部署
编排	docker-compose / K8s	多服务协同

三、方案一：本地运行大模型

3.1 环境准备

首先创建独立的虚拟环境，避免依赖冲突。Linux/macOS 下使用 source llm-env/bin/activate，Windows 则用 llm-env\Scripts\activate。

# 安装核心依赖
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install transformers accelerate sentencepiece

3.2 使用 transformers 加载模型

这里以 Qwen 模型为例，利用 device_map="auto" 自动分配显存，适合快速验证。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.float16,
    trust_remote_code=True,
)

def chat(prompt: str, max_new_tokens: int = 512) -> str:
    messages = [{"role": "user", : prompt}]
    input_ids = tokenizer.apply_chat_template(messages, return_tensors=).to(model.device)
    
     torch.no_grad():
        outputs = model.generate(
            input_ids,
            max_new_tokens=max_new_tokens,
            temperature=,
            top_p=,
            do_sample=,
        )
    response = tokenizer.decode(outputs[][input_ids.shape[-]:], skip_special_tokens=)
     response

 __name__ == :
    result = chat()
    (result)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 安装带 CUDA 支持的 llama-cpp-python
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

# 下载 GGUF 格式模型
huggingface-cli download \
  Qwen/Qwen2.5-7B-Instruct-GGUF \
  qwen2.5-7b-instruct-q4_k_m.gguf \
  --localdir ./models

from llama_cpp import Llama

llm = Llama(
    model_path="./models/qwen2.5-7b-instruct-q4_k_m.gguf",
    n_ctx=4096,
    n_gpu_layers=-1,  # 全部卸载到 GPU
    verbose=False,
)

response = llm.create_chat_completion(
    messages=[{"role": "user", "content": "解释 Transformer 的自注意力机制"}],
    temperature=0.7,
    max_tokens=1024,
)
print(response["choices"][0]["message"]["content"])

python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \
--served-model-name qwen-72b \
--host 0.0.0.0 \
--port 8000 \
--max-model-len 4096 \
--gpu-memory-utilization 0.90 \
--tensor-parallel-size 2

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed",  # 本地部署无需密钥
)

response = client.chat.completions.create(
    model="qwen-72b",
    messages=[
        {"role": "system", "content": "你是一位资深 Python 工程师。"},
        {"role": "user", "content": "如何优化 asyncio 的并发性能？"},
    ],
    temperature=0.7,
    max_tokens=2048,
)
print(response.choices[0].message.content)

# api_server.py
import uuid
import time
from contextlib import asynccontextmanager
import torch
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field
from transformers import AutoModelForCausalLM, AutoTokenizer

model = None
tokenizer = None

@asynccontextmanager
async def lifespan(app: FastAPI):
    global model, tokenizer
    model_id = "Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4"
    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        device_map="auto",
        torch_dtype=torch.float16,
        trust_remote_code=True,
    )
    yield
    del model, tokenizer
    torch.cuda.empty_cache()

app = FastAPI(title="LLM API Service", lifespan=lifespan)

class ChatRequest(BaseModel):
    prompt: str = Field(..., min_length=1, max_length=8192)
    max_tokens: int = Field(default=1024, ge=1, le=4096)
    temperature: float = Field(default=0.7, ge=0.0, le=2.0)

class ChatResponse(BaseModel):
    id: str
    response: str
    usage_tokens: int
    latency_ms: float

@app.post("/v1/chat", response_model=ChatResponse)
async def chat_completion(req: ChatRequest):
    if model is None:
        raise HTTPException(status_code=503, detail="模型尚未加载完成")
    start = time.perf_counter()
    input_ids = tokenizer.apply_chat_template(
        [{"role": "user", "content": req.prompt}],
        return_tensors="pt",
    ).to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            input_ids,
            max_new_tokens=req.max_tokens,
            temperature=req.temperature,
            top_p=0.9,
            do_sample=True,
        )
    generated = outputs[0][input_ids.shape[-1]:]
    text = tokenizer.decode(generated, skip_special_tokens=True)
    latency = (time.perf_counter() - start) * 1000
    
    return ChatResponse(
        id=str(uuid.uuid4()),
        response=text,
        usage_tokens=len(generated),
        latency_ms=round(latency, 2),
    )

@app.get("/health")
async def health():
    return {
        "status": "ok",
        "model_loaded": model is not None,
        "gpu_available": torch.cuda.is_available(),
    }

uvicorn api_server:app --host 0.0.0.0 --port 8000 --workers 1

# ---------- 构建阶段 ----------
FROM nvidia/cuda:12.4.1-devel-ubuntu22.04 AS builder
ENV DEBIAN_FRONTEND=noninteractive \
    PYTHONUNBUFFERED=1
RUN apt-get update && apt-get install -y --no-install-recommends \
    python3.11 python3.11-venv python3-pip \
    && rm -rf /var/lib/apt/lists/*

RUN python3.11 -m venv /opt/venv
ENV PATH="/opt/venv/bin:$PATH"
COPY requirements.txt /tmp/requirements.txt
RUN pip install --no-cache-dir -r /tmp/requirements.txt

# ---------- 运行阶段 ----------
FROM nvidia/cuda:12.4.1-runtime-ubuntu22.04
RUN apt-get update && apt-get install -y --no-install-recommends \
    python3.11 \
    && rm -rf /var/lib/apt/lists/*

COPY --from=builder /opt/venv /opt/venv
ENV PATH="/opt/venv/bin:$PATH"
WORKDIR /app
COPY api_server.py .
EXPOSE 8000
CMD ["uvicorn", "api_server:app", "--host", "0.0.0.0", "--port", "8000"]

version: "3.9"
services:
  llm-api:
    build:
      context: .
      dockerfile: Dockerfile
    container_name: llm-api-server
    ports:
      - "8000:8000"
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
      - MODEL_ID=Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4
      - MAX_MODEL_LEN=4096
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    restart: unless-stopped
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
      interval: 30s
      timeout: 10s
      retries: 3

  redis:
    image: redis:7-alpine
    container_name: llm-redis
    ports:
      - "6379:6379"
    restart: unless-stopped

# 构建镜像
docker-compose build
# 启动服务（后台运行）
docker-compose up -d
# 查看日志
docker-compose logs -f llm-api
# 测试接口
curl -X POST http://localhost:8000/v1/chat \
-H "Content-Type: application/json" \
-d '{"prompt": "解释 Docker 的多阶段构建", "max_tokens": 512}'

参数	说明	推荐值
`gpu_memory_utilization`	GPU 显存使用率上限	0.85 ~ 0.95
`max_model_len`	最大上下文长度	按需设置，影响 KV Cache
`tensor_parallel_size`	张量并行 GPU 数	匹配物理 GPU 数
`quantization`	量化方法	GPTQ-Int4 / AWQ
`enforce_eager`	禁用 CUDA Graph（调试用）	生产环境关闭

import time
import statistics
import requests

API_URL = "http://localhost:8000/v1/chat"
PROMPT = "请用 200 字介绍 Python 的 GIL 机制。"
NUM_REQUESTS = 50
latencies = []

for i in range(NUM_REQUESTS):
    start = time.perf_counter()
    resp = requests.post(API_URL, json={"prompt": PROMPT, "max_tokens": 256})
    latencies.append((time.perf_counter() - start) * 1000)

print(f"请求次数：{NUM_REQUESTS}")
print(f"平均延迟：{statistics.mean(latencies):.1f} ms")
print(f"P50 延迟：{statistics.median(latencies):.1f} ms")
print(f"P95 延迟：{sorted(latencies)[int(len(latencies)*0.95)]:.1f} ms")
print(f"吞吐量：{NUM_REQUESTS /(sum(latencies)/1000):.1f} req/s")

检查项	工具/方案
GPU 监控	`nvidia-smi dmon`、Prometheus DCGM Exporter
API 指标	Prometheus + Grafana
日志	Loki / ELK Stack
限流	FastAPI `slowapi` 或 Nginx `limit_req`
模型版本	MLflow / DVC
安全	API Key 鉴权 + 输入长度/内容过滤

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

一、整体架构概览

二、模型选型与技术栈

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

七、生产部署检查清单

八、总结

参考资料

更多推荐文章

相关免费在线工具

Python AI 大模型部署实战：本地运行、API 服务与 Docker 封装

一、整体架构概览

二、模型选型与技术栈

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

七、生产部署检查清单

八、总结

参考资料

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具