Python AI 大模型部署指南：本地运行、API 服务及 Docker 封装 | 极客日志

PythonAI算法

Python AI 大模型部署指南：本地运行、API 服务及 Docker 封装

综述由AI生成2026 年 Python AI 大模型部署的三种核心方案。首先通过 transformers 或 llama.cpp 实现本地运行，适合开发调试；其次利用 vLLM 或 FastAPI 构建高性能 API 服务，支持高并发推理；最后通过 Docker 和 docker-compose 进行容器化封装，便于标准化交付。文章还涵盖了性能调优参数、生产部署检查清单及监控方案，为开发者提供从本地到生产环境的全流程指导。

RefactorPro发布于 2026/4/5更新于 2026/6/130 浏览

Python AI 大模型部署指南：本地运行、API 服务及 Docker 封装

随着开源大模型的爆发式增长，在本地与服务端部署 AI 大模型已成为开发者的核心技能。本文将从本地运行、API 服务化、Docker 容器封装三个维度，给出完整的生产级部署方案。

一、整体架构概览

本文涵盖以下核心维度：

开发与协作：开发调试、团队协作
模型选择：模型选择与下载
部署方式：本地直接运行、API 服务化、Docker 容器封装
技术栈：llama.cpp / vLLM / Ollama、FastAPI + vLLM / TGI、Dockerfile + docker-compose
运维：性能调优、监控与运维

二、模型选型与技术栈（2026 主流方案）

维度	推荐方案	适用场景
本地推理	llama.cpp / Ollama	个人开发、低资源环境
GPU 推理	vLLM / TGI	高并发、低延迟
API 框架	FastAPI	轻量、高性能
容器化	Docker + NVIDIA Container Toolkit	标准化部署
编排	docker-compose / K8s	多服务协同

注：2026 年主流推理引擎市场份额估算显示，vLLM、Ollama 等占据主要份额。

三、方案一：本地运行大模型

3.1 环境准备

# 创建独立虚拟环境
python -m venv llm-env
source llm-env/bin/activate  # Linux/macOS
# llm-env\Scripts\activate     # Windows

# 安装核心依赖
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu124
pip install transformers accelerate sentencepiece

3.2 使用 transformers 加载模型

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map=,  
    torch_dtype=torch.float16,
    trust_remote_code=,
)

 () -> :
    messages = [{: , : prompt}]
    input_ids = tokenizer.apply_chat_template(
        messages, return_tensors=
    ).to(model.device)
     torch.no_grad():
        outputs = model.generate(
            input_ids,
            max_new_tokens=max_new_tokens,
            temperature=,
            top_p=,
            do_sample=,
        )
    response = tokenizer.decode(
        outputs[][input_ids.shape[-]:], skip_special_tokens=
    )
     response

 __name__ == :
    result = chat()
    (result)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 安装 llama-cpp-python（带 CUDA 支持）
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

# 下载 GGUF 格式模型
huggingface-cli download \
    Qwen/Qwen2.5-7B-Instruct-GGUF \
    qwen2.5-7b-instruct-q4_k_m.gguf \
    --localdir ./models

from llama_cpp import Llama

llm = Llama(
    model_path="./models/qwen2.5-7b-instruct-q4_k_m.gguf",
    n_ctx=4096,
    n_gpu_layers=-1,  # 全部卸载到 GPU
    verbose=False,
)
response = llm.create_chat_completion(
    messages=[{"role": "user", "content": "解释 Transformer 的自注意力机制"}],
    temperature=0.7,
    max_tokens=1024,
)
print(response["choices"][0]["message"]["content"])

# 直接以 OpenAI 兼容模式启动
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \
--served-model-name qwen-72b \
--host 0.0.0.0 \
--port 8000 \
--max-model-len 4096 \
--gpu-memory-utilization 0.90 \
--tensor-parallel-size 2

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed",  # 本地部署无需密钥
)
response = client.chat.completions.create(
    model="qwen-72b",
    messages=[
        {"role": "system", "content": "你是一位资深 Python 工程师。"},
        {"role": "user", "content": "如何优化 asyncio 的并发性能？"},
    ],
    temperature=0.7,
    max_tokens=2048,
)
print(response.choices[0].message.content)

# api_server.py
import uuid
import time
from contextlib import asynccontextmanager
import torch
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel, Field
from transformers import AutoModelForCausalLM, AutoTokenizer

# ---------- 全局模型 ----------
model = None
tokenizer = None

@asynccontextmanager
async def lifespan(app: FastAPI):
    """应用生命周期：启动时加载模型，关闭时释放资源。"""
    global model, tokenizer
    model_id = "Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4"
    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        device_map="auto",
        torch_dtype=torch.float16,
        trust_remote_code=True,
    )
    yield
    del model, tokenizer
    torch.cuda.empty_cache()

app = FastAPI(title="LLM API Service", lifespan=lifespan)

# ---------- 请求/响应模型 ----------
class ChatRequest(BaseModel):
    prompt: str = Field(..., min_length=1, max_length=8192)
    max_tokens: int = Field(default=1024, ge=1, le=4096)
    temperature: float = Field(default=0.7, ge=0.0, le=2.0)

class ChatResponse(BaseModel):
    id: str
    response: str
    usage_tokens: int
    latency_ms: float

# ---------- 推理接口 ----------
@app.post("/v1/chat", response_model=ChatResponse)
async def chat_completion(req: ChatRequest):
    if model is None:
        raise HTTPException(status_code=503, detail="模型尚未加载完成")
    start = time.perf_counter()
    input_ids = tokenizer.apply_chat_template(
        [{"role": "user", "content": req.prompt}],
        return_tensors="pt",
    ).to(model.device)
    with torch.no_grad():
        outputs = model.generate(
            input_ids,
            max_new_tokens=req.max_tokens,
            temperature=req.temperature,
            top_p=0.9,
            do_sample=True,
        )
    generated = outputs[0][input_ids.shape[-1]:]
    text = tokenizer.decode(generated, skip_special_tokens=True)
    latency = (time.perf_counter() - start) * 1000
    return ChatResponse(
        id=str(uuid.uuid4()),
        response=text,
        usage_tokens=len(generated),
        latency_ms=round(latency, 2),
    )

# ---------- 健康检查 ----------
@app.get("/health")
async def health():
    return {
        "status": "ok",
        "model_loaded": model is not None,
        "gpu_available": torch.cuda.is_available(),
    }

uvicorn api_server:app --host 0.0.0.0 --port 8000 --workers 1

# ---------- 构建阶段 ----------
FROM nvidia/cuda:12.4.1-devel-ubuntu22.04 AS builder
ENV DEBIAN_FRONTEND=noninteractive \
    PYTHONUNBUFFERED=1
RUN apt-get update && apt-get install -y --no-install-recommends \
    python3.11 python3.11-venv python3-pip \
    && rm -rf /var/lib/apt/lists/*

RUN python3.11 -m venv /opt/venv
ENV PATH="/opt/venv/bin:$PATH"
COPY requirements.txt /tmp/requirements.txt
RUN pip install --no-cache-dir -r /tmp/requirements.txt

# ---------- 运行阶段 ----------
FROM nvidia/cuda:12.4.1-runtime-ubuntu22.04
RUN apt-get update && apt-get install -y --no-install-recommends \
    python3.11 \
    && rm -rf /var/lib/apt/lists/*
COPY --from=builder /opt/venv /opt/venv
ENV PATH="/opt/venv/bin:$PATH"
WORKDIR /app
COPY api_server.py .
EXPOSE 8000
CMD ["uvicorn", "api_server:app", "--host", "0.0.0.0", "--port", "8000"]

version: "3.9"
services:
  llm-api:
    build:
      context: .
      dockerfile: Dockerfile
    container_name: llm-api-server
    ports:
      - "8000:8000"
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface  # 模型缓存持久化
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
      - MODEL_ID=Qwen/Qwen2.5-14B-Instruct-GPTQ-Int4
      - MAX_MODEL_LEN=4096
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    restart: unless-stopped
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
      interval: 30s
      timeout: 10s
      retries: 3
  redis:
    image: redis:7-alpine
    container_name: llm-redis
    ports:
      - "6379:6379"
    restart: unless-stopped

# 构建镜像
docker-compose build
# 启动服务（后台运行）
docker-compose up -d
# 查看日志
docker-compose logs -f llm-api
# 测试接口
curl -X POST http://localhost:8000/v1/chat \
-H "Content-Type: application/json" \
-d '{"prompt": "解释 Docker 的多阶段构建", "max_tokens": 512}'

参数	说明	推荐值
`gpu_memory_utilization`	GPU 显存使用率上限	0.85 ~ 0.95
`max_model_len`	最大上下文长度	按需设置，影响 KV Cache
`tensor_parallel_size`	张量并行 GPU 数	匹配物理 GPU 数
`quantization`	量化方法	GPTQ-Int4 / AWQ
`enforce_eager`	禁用 CUDA Graph（调试用）	生产环境关闭

# 性能基准测试脚本
import time
import statistics
import requests

API_URL = "http://localhost:8000/v1/chat"
PROMPT = "请用 200 字介绍 Python 的 GIL 机制。"
NUM_REQUESTS = 50
latencies = []

for i in range(NUM_REQUESTS):
    start = time.perf_counter()
    resp = requests.post(API_URL, json={"prompt": PROMPT, "max_tokens": 256})
    latencies.append((time.perf_counter() - start) * 1000)

print(f"请求次数：{NUM_REQUESTS}")
print(f"平均延迟：{statistics.mean(latencies):.1f} ms")
print(f"P50 延迟：{statistics.median(latencies):.1f} ms")
print(f"P95 延迟：{sorted(latencies)[int(len(latencies)*0.95)]:.1f} ms")
print(f"吞吐量：{NUM_REQUESTS /(sum(latencies)/1000):.1f} req/s")

检查项	工具/方案
GPU 监控	`nvidia-smi dmon`、Prometheus DCGM Exporter
API 指标	Prometheus + Grafana
日志	Loki / ELK Stack
限流	FastAPI `slowapi` 或 Nginx `limit_req`
模型版本	MLflow / DVC
安全	API Key 鉴权 + 输入长度/内容过滤

Python AI 大模型部署指南：本地运行、API 服务及 Docker 封装

一、整体架构概览

二、模型选型与技术栈（2026 主流方案）

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

关键调优参数

七、生产部署检查清单

八、总结

更多推荐文章

相关免费在线工具

Python AI 大模型部署指南：本地运行、API 服务及 Docker 封装

一、整体架构概览

二、模型选型与技术栈（2026 主流方案）

三、方案一：本地运行大模型

3.1 环境准备

3.2 使用 transformers 加载模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.3 使用 llama.cpp 进行 CPU/GPU 推理

四、方案二：API 服务化

4.1 架构流程

4.2 使用 vLLM 启动高性能推理服务

4.3 使用 FastAPI 自建 API 服务

五、方案三：Docker 容器封装

5.1 Dockerfile

5.2 docker-compose.yml

5.3 构建与运行

六、性能调优要点

关键调优参数

七、生产部署检查清单

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具