人工智能大模型部署与工程化落地实战 | 极客日志

PythonAI算法

人工智能大模型部署与工程化落地实战

综述由AI生成详细介绍人工智能大模型部署与工程化落地的全流程。涵盖部署前的需求分析与硬件选型，包括 GPU、CPU 及内存资源的评估标准。深入讲解模型优化技术，如量化、剪枝和蒸馏，并提供基于 Hugging Face Transformers 的实操代码。重点演示了 FastAPI、TorchServe、TensorFlow Serving 及 Kubernetes 四种主流部署框架的实战流程，包含 Docker 镜像构建与 K8s 配置文件编写。此外，还涉及服务监控指标设计、性能瓶颈定位调优方法，以及版本控制、合规风险控制等工程化规范。最后通过 10B 参数量 LLM 集群部署案例，验证了优化方案的有效性，为不同场景的大模型落地提供参考。

奇形怪状发布于 2026/2/10更新于 2026/5/2828 浏览

第十七章人工智能大模型部署与工程化落地实战

在这里插入图片描述

一、章节学习目标与重点

1.1 学习目标

掌握大模型部署前的环境准备与资源评估方法，包括硬件选型、软件依赖配置等核心内容。
理解模型优化的关键技术（如量化、剪枝、蒸馏），并能根据实际场景选择合适的优化方案。
熟练运用主流部署框架（TensorFlow Serving、TorchServe、FastAPI 等）完成大模型的工程化部署。
具备大模型服务监控、性能调优与故障排查的实战能力，保障服务稳定运行。
掌握大模型落地的全流程管理，包括版本控制、灰度发布、合规风险控制等工程化实践。

1.2 学习重点

硬件资源与软件环境的适配配置，尤其是 GPU、CPU 与模型规模的匹配逻辑。
量化、剪枝等模型优化技术的实操步骤与效果验证方法。
主流部署框架的核心流程与差异化应用场景（单机部署、集群部署、云原生部署）。
服务监控指标设计与性能瓶颈定位技巧。
大模型落地过程中的合规性要求与工程化规范。

二、大模型部署前的准备工作

2.1 需求与场景分析

在部署大模型前，必须先明确业务需求与应用场景，这是后续资源配置、模型优化与部署方案选择的基础。不同场景对模型的性能、响应速度、并发量、成本预算的要求差异显著，直接决定了部署方案的设计方向。

2.1.1 核心需求拆解维度

💡 性能需求：模型的推理精度要求（如文本生成的连贯性、图像识别的准确率），是否需要达到预训练模型的全精度效果，还是可接受一定程度的精度损失以换取性能提升。

示例：智能客服场景需保证意图识别准确率≥95%，而内容生成场景可接受±3% 的精度损失以提升响应速度。

💡 响应速度需求：单次请求的延迟阈值（如实时对话场景要求延迟≤500ms，批量处理场景可放宽至 10s），这直接影响硬件选型与模型优化策略。

示例：自动驾驶中的目标检测模型需延迟≤100ms，否则会影响决策安全性；而文档摘要生成模型可接受 1-3s 的延迟。

💡 并发量需求：峰值并发用户数（如电商客服高峰期并发量 1000+，企业内部工具并发量 100-），决定了部署架构是单机还是集群，是否需要负载均衡。

示例：ToC 端 AI 绘画工具需支持 1000+ 并发请求，需采用集群部署 + 负载均衡；而 ToB 端的数据分析工具并发量较低，单机部署即可满足需求。

💡 成本预算：硬件采购、云服务器租赁、带宽消耗等成本限制，需在性能与成本之间寻找平衡点。

示例：初创企业预算有限，可选择'CPU+ 轻量模型'或'云服务器按需付费'方案；大型企业对性能要求高，可采购高端 GPU 服务器搭建私有部署环境。

2.1.2 典型场景需求对照表

应用场景	精度要求	延迟要求	并发量	成本敏感度	部署模式推荐
实时智能对话	中高	≤500ms	高（1000+）	中	云原生集群部署
文档批量处理	中

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型参数量	推荐 GPU 型号	显存要求	CPU 配置	内存要求	适用部署模式
<1B	T4、P40、RTX 3090	≥8GB	16 核 Xeon	≥32GB	单机部署
1B-10B	A10、RTX 4090、A30	≥24GB	24 核 Xeon	≥64GB	单机/小规模集群
10B-100B	A100 40GB/80GB、H100	≥40GB	32 核 Xeon	≥128GB	集群部署
>100B	8×A100 80GB、H100 集群	≥320GB	64 核+ Xeon	≥256GB	大规模集群部署

# 添加 NVIDIA 驱动源
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
# 安装驱动（替换为对应版本）
sudo apt install nvidia-driver-535
# 验证安装
nvidia-smi

# 验证 CUDA 版本
nvcc -V
# 验证 CuDNN 可用性
python -c "import torch; print(torch.backends.cudnn.version())"

# 创建 conda 环境
conda create -n llm-deploy python=3.9
conda activate llm-deploy
# 安装深度学习框架（二选一，根据模型训练框架）
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
# 或
pip install tensorflow==2.12.0
# 安装部署相关库
pip install fastapi uvicorn gunicorn transformers sentencepiece accelerate
pip install prometheus-client # 监控相关
pip install pyarrow # 数据处理

量化类型	精度转换	显存占用降低比例	精度损失	适用场景
FP16 量化	FP32 → FP16	50%	几乎无	显存不足但需保证高精度
INT8 量化	FP32 → INT8	75%	1-3%	大部分场景（对话、生成）
INT4 量化	FP32 → INT4	87.5%	3-5%	边缘设备、高并发场景

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

# 配置 INT8 量化参数
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # 启用 INT8 量化
    bnb_8bit_use_double_quant=True,  # 双量化（进一步降低显存占用）
    bnb_8bit_quant_type="nf4",  # 量化类型（nf4 适用于 LLM）
    bnb_8bit_compute_dtype=torch.float16  # 计算时的精度
)

# 加载量化后的模型
model_name = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",  # 自动分配设备（GPU/CPU）
    trust_remote_code=True
)

# 验证量化效果
print(f"模型设备：{model.device}")
print(f"模型参数量：{model.num_parameters()/1e9:.2f}B")

# 推理测试
inputs = tokenizer("请介绍人工智能大模型的部署流程", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

import time
import torch

# 显存占用测试（量化前 vs 量化后）
def test_memory_usage(model, inputs):
    torch.cuda.empty_cache()
    with torch.no_grad():
        outputs = model.generate(**inputs, max_new_tokens=200)
        memory_used = torch.cuda.max_memory_allocated() / 1024**3  # 转换为 GB
    return memory_used

# 推理速度测试
def test_inference_speed(model, inputs, repeat=10):
    torch.cuda.empty_cache()
    total_time = 0
    with torch.no_grad():
        for _ in range(repeat):
            start = time.time()
            outputs = model.generate(**inputs, max_new_tokens=200)
            total_time += time.time() - start
    avg_time = total_time / repeat
    return avg_time

# 测试结果对比（示例）
# 量化前（FP16）：显存占用~14GB，平均推理时间~1.8s
# 量化后（INT8）：显存占用~4GB，平均推理时间~0.6s

import torch
from transformers import BertModel, BertTokenizer
from torchprune import Pruner

# 加载预训练模型
model_name = "bert-base-chinese"
model = BertModel.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

# 配置剪枝器（剪枝 20% 的注意力头）
pruner = Pruner(
    model,
    pruning_rate=0.2,  # 剪枝比例
    pruning_type="structured",  # 结构化剪枝
    target_modules=["attention.self"],  # 目标模块（注意力头）
    metric="l1_norm"  # 剪枝指标（基于权重 L1 范数，越小越冗余）
)

# 剪枝并微调（避免精度损失）
# 1. 剪枝
pruned_model = pruner.prune()
# 2. 微调（使用任务数据集，如文本分类数据集）
# 此处省略微调代码（需加载任务数据，训练 3-5 个 epoch）
pruned_model.save_pretrained("./pruned_bert_model")

# 验证剪枝效果
print(f"原始模型参数量：{model.num_parameters()/1e6:.2f}M")
print(f"剪枝后模型参数量：{pruned_model.num_parameters()/1e6:.2f}M")

# 推理测试
inputs = tokenizer("人工智能剪枝技术", return_tensors="pt")
outputs = pruned_model(**inputs)
print(f"输出维度：{outputs.last_hidden_state.shape}")

from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    DataCollatorForLanguageModeling,
    TrainingArguments,
    Trainer
)
import torch.nn as nn

# 加载教师模型和学生模型
teacher_model_name = "meta-llama/Llama-2-7b-chat-hf"
student_model_name = "distilbert/distilllama-1.3b"
teacher_tokenizer = AutoTokenizer.from_pretrained(teacher_model_name)
teacher_model = AutoModelForCausalLM.from_pretrained(teacher_model_name).to("cuda:0")
student_tokenizer = AutoTokenizer.from_pretrained(student_model_name)
student_model = AutoModelForCausalLM.from_pretrained(student_model_name).to("cuda:0")

# 准备蒸馏数据集（示例：使用教师模型生成文本作为训练数据）
def generate_distillation_data(teacher_model, tokenizer, num_samples=1000):
    prompts = [
        "请解释量子计算的基本原理",
        "如何提升深度学习模型的泛化能力",
        "介绍区块链技术的应用场景"
    ]
    data = []
    for _ in range(num_samples):
        prompt = prompts[_ % len(prompts)]
        inputs = tokenizer(prompt, return_tensors="pt").to(teacher_model.device)
        outputs = teacher_model.generate(**inputs, max_new_tokens=300, do_sample=True)
        text = tokenizer.decode(outputs[0], skip_special_tokens=True)
        data.append(text)
    return data

distillation_data = generate_distillation_data(teacher_model, teacher_tokenizer)

# 数据预处理
def preprocess_function(examples):
    return student_tokenizer(examples, truncation=True, max_length=512, return_special_tokens_mask=True)

from datasets import Dataset
dataset = Dataset.from_dict({"text": distillation_data})
tokenized_dataset = dataset.map(preprocess_function, batched=True)
data_collator = DataCollatorForLanguageModeling(tokenizer=student_tokenizer, mlm=False)

# 定义蒸馏损失函数
class DistillationLoss(nn.Module):
    def __init__(self, temperature=2.0):
        super().__init__()
        self.temperature = temperature
        self.ce_loss = nn.CrossEntropyLoss()

    def forward(self, student_logits, teacher_logits, labels):
        # KL 散度损失（模仿教师模型输出分布）
        kl_loss = nn.functional.kl_div(
            nn.functional.log_softmax(student_logits / self.temperature, dim=-1),
            nn.functional.softmax(teacher_logits / self.temperature, dim=-1),
            reduction="batchmean"
        ) * (self.temperature ** 2)
        # 任务损失（匹配真实标签）
        task_loss = self.ce_loss(student_logits.view(-1, student_logits.size(-1)), labels.view(-1))
        # 总损失（加权求和）
        return 0.7 * kl_loss + 0.3 * task_loss

# 训练配置
training_args = TrainingArguments(
    output_dir="./distilled_llama_model",
    overwrite_output_dir=True,
    num_train_epochs=3,
    per_device_train_batch_size=4,
    learning_rate=5e-5,
    logging_steps=10,
    save_steps=100,
    fp16=True,  # 混合精度训练
)

# 自定义 Trainer
class DistillationTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False):
        labels = inputs.pop("labels")
        # 学生模型输出
        student_outputs = model(**inputs)
        student_logits = student_outputs.logits
        # 教师模型输出（不训练，固定参数）
        with torch.no_grad():
            teacher_outputs = teacher_model(**inputs)
            teacher_logits = teacher_outputs.logits
        # 计算蒸馏损失
        loss_fn = DistillationLoss(temperature=2.0)
        loss = loss_fn(student_logits, teacher_logits, labels)
        return (loss, student_outputs) if return_outputs else loss

# 开始蒸馏训练
trainer = DistillationTrainer(
    model=student_model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,
)
trainer.train()

# 保存蒸馏后的学生模型
student_model.save_pretrained("./distilled_llama_model")
student_tokenizer.save_pretrained("./distilled_llama_model")

优化技术	显存降低效果	速度提升效果	精度损失	实施难度	适用场景
量化	高（40%-80%）	中高（2-4 倍）	低（1-5%）	低	大部分部署场景（优先选择）
剪枝	中（30%-60%）	中（1.5-3 倍）	中（3-8%）	中	边缘设备、资源极度有限场景
蒸馏	高（60%-90%）	高（3-5 倍）	中（5-10%）	高	移动端、嵌入式设备、高并发场景

from fastapi import FastAPI, Request, HTTPException
from fastapi.middleware.cors import CORSMiddleware
from pydantic import BaseModel
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

# 初始化 FastAPI 应用
app = FastAPI(title="LLaMA 2 实时推理服务", version="1.0")

# 配置跨域（允许前端调用）
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# 定义请求体格式
class InferenceRequest(BaseModel):
    prompt: str
    max_new_tokens: int = 200
    temperature: float = 0.7
    top_p: float = 0.9

# 加载量化后的模型和 Tokenizer（启动时加载，避免重复加载）
@app.on_event("startup")
async def load_model():
    global model, tokenizer
    bnb_config = BitsAndBytesConfig(
        load_in_8bit=True,
        bnb_8bit_use_double_quant=True,
        bnb_8bit_quant_type="nf4",
        bnb_8bit_compute_dtype=torch.float16
    )
    model_name = "meta-llama/Llama-2-7b-chat-hf"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        quantization_config=bnb_config,
        device_map="auto",
        trust_remote_code=True
    )
    model.eval()  # 切换到推理模式

# 定义推理接口
@app.post("/inference", summary="大模型实时推理")
async def inference(request: InferenceRequest):
    try:
        # 数据预处理
        inputs = tokenizer(
            request.prompt,
            return_tensors="pt",
            truncation=True,
            max_length=512
        ).to(model.device)
        
        # 推理（禁用梯度计算，提升速度）
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=request.max_new_tokens,
                temperature=request.temperature,
                top_p=request.top_p,
                do_sample=True,
                num_return_sequences=1,
                pad_token_id=tokenizer.eos_token_id
            )
        
        # 结果解码
        result = tokenizer.decode(outputs[0], skip_special_tokens=True)
        return {
            "prompt": request.prompt,
            "result": result,
            "status": "success"
        }
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"推理失败：{str(e)}")

# 健康检查接口（用于服务监控）
@app.get("/health", summary="服务健康检查")
async def health_check():
    return {"status": "healthy", "model": "LLaMA 2 7B (INT8)"}

# 单机部署，4 个工作进程，绑定 8000 端口
gunicorn -w 4 -k uvicorn.workers.UvicornWorker -b 0.0.0.0:8000 main:app

pip install fastapi uvicorn gunicorn

{"prompt":"请介绍 FastAPI 部署大模型的优势","result":"FastAPI 部署大模型具有以下核心优势：1. 高性能...","status":"success"}

curl -X POST http://localhost:8000/inference \ 
-H "Content-Type: application/json" \ 
-d '{ "prompt": "请介绍 FastAPI 部署大模型的优势", "max_new_tokens": 300, "temperature": 0.6 }'

torch-model-archiver --model-name llama2-7b --version 1.0 \ \
--model-file ./model_config.py --serialized-file ./pytorch_model.bin \ \
--handler ./handler.py --extra-files "./tokenizer_config.json,./vocab.json,./merges.txt" \ \
--export-path ./model_store

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from ts.torch_handler.base_handler import BaseHandler

class LLMHandler(BaseHandler):
    def initialize(self, context):
        # 初始化模型和 Tokenizer
        properties = context.system_properties
        model_dir = properties.get("model_dir")
        bnb_config = BitsAndBytesConfig(
            load_in_8bit=True,
            bnb_8bit_use_double_quant=True,
            bnb_8bit_quant_type="nf4",
            bnb_8bit_compute_dtype=torch.float16
        )
        self.tokenizer = AutoTokenizer.from_pretrained(model_dir)
        self.model = AutoModelForCausalLM.from_pretrained(
            model_dir,
            quantization_config=bnb_config,
            device_map="auto",
            trust_remote_code=True
        )
        self.model.eval()

    def preprocess(self, data):
        # 数据预处理：解析请求中的 prompt
        prompts = []
        for item in data:
            if "body" in item:
                prompts.append(item["body"]["prompt"])
            else:
                prompts.append(item.get("prompt", ""))
        return prompts

    def inference(self, data, *args, **kwargs):
        # 推理
        inputs = self.tokenizer(
            data,
            return_tensors="pt",
            truncation=True,
            max_length=512,
            padding=True
        ).to(self.model.device)
        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                max_new_tokens=200,
                temperature=0.7,
                top_p=0.9,
                do_sample=True
            )
        results = self.tokenizer.batch_decode(outputs, skip_special_tokens=True)
        return results

    def postprocess(self, inference_output):
        # 结果后处理：返回 JSON 格式
        return [{"result": output} for output in inference_output]

pip install torchserve torch-model-archiver

# 启动服务，指定模型存储目录和端口
torchserve --start --model-store ./model_store --models llama2-7b=llama2-7b.mar --port 8080 --management-port 8081

{"prompt":"请解释 TorchServe 的核心功能"}

import tensorflow as tf
from transformers import TFAutoModelForSeq2SeqLM, AutoTokenizer

# 加载 TensorFlow 版本的模型
model_name = "t5-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForSeq2SeqLM.from_pretrained(model_name)

# 定义签名函数（用于 Serving 调用）
@tf.function(input_signature=[tf.TensorSpec(shape=(None,), dtype=tf.string, name="prompt")])
def serving_fn(prompt):
    # 预处理
    inputs = tokenizer(
        prompt.numpy().decode("utf-8") if prompt.shape[0] == 1 else [x.decode("utf-8") for x in prompt.numpy()],
        return_tensors="tf",
        truncation=True,
        max_length=512,
        padding=True
    )
    # 推理
    outputs = model.generate(
        inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_new_tokens=200,
        temperature=0.7
    )
    # 解码
    results = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    return tf.convert_to_tensor(results, dtype=tf.string, name="output")

# 导出 SavedModel
export_dir = "./t5-savedmodel/1"  # 版本号为 1
tf.saved_model.save(model, export_dir, signatures={"serving_default": serving_fn})

# 拉取 TensorFlow Serving 镜像
docker pull tensorflow/serving:latest-gpu
# 启动容器（GPU 版本）
docker run -p 8501:8501 -p 8500:8500 \ \
--gpus all \ \
-v $(pwd)/t5-savedmodel:/models/t5-model \ \
-e MODEL_NAME=t5-model \ \
-t tensorflow/serving:latest-gpu

{"outputs":"人工智能部署非常重要。"}

curl -X POST http://localhost:8501/v1/models/t5-model:predict \ 
-H "Content-Type: application/json" \ 
-d '{ "inputs": "translate English to Chinese: Artificial intelligence deployment is very important." }'

docker tag llm-deploy:v1.0 my-harbor.com/ai/llm-deploy:v1.0
docker push my-harbor.com/ai/llm-deploy:v1.0

docker build -t llm-deploy:v1.0 .

# 基础镜像（含 GPU 驱动和 CUDA）
FROM nvidia/cuda:11.7.1-cudnn8-runtime-ubuntu20.04

# 设置工作目录
WORKDIR /app

# 安装依赖
RUN apt-get update && apt-get install -y \ 
    python3-pip \ 
    python3-dev \ 
    && rm -rf /var/lib/apt/lists/*

# 安装 Python 依赖
COPY requirements.txt .
RUN pip3 install --no-cache-dir -r requirements.txt

# 复制服务代码和模型文件
COPY main.py .
COPY ./distilled_llama_model /app/model

# 暴露端口
EXPOSE 8000

# 启动命令
CMD ["gunicorn", "-w", "4", "-k", "uvicorn.workers.UvicornWorker", "-b", "0.0.0.0:8000", "main:app"]

apiVersion: apps/v1
kind: Deployment
metadata:
  name: llm-deployment
  namespace: ai-service
spec:
  replicas: 3  # 初始 3 个 Pod
  selector:
    matchLabels:
      app: llm-service
  template:
    metadata:
      labels:
        app: llm-service
    spec:
      containers:
      - name: llm-container
        image: my-harbor.com/ai/llm-deploy:v1.0
        resources:
          limits:
            nvidia.com/gpu: 1  # 每个 Pod 占用 1 块 GPU
            cpu: "16"
            memory: "64Gi"
          requests:
            nvidia.com/gpu: 1
            cpu: "8"
            memory: "32Gi"
        ports:
        - containerPort: 8000
        livenessProbe:  # 存活探针（健康检查）
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 60
          periodSeconds: 10
        readinessProbe:  # 就绪探针（是否可接收请求）
          httpGet:
            path: /health
            port: 8000
          initialDelaySeconds: 30
          periodSeconds: 5
        volumeMounts:
        - name: model-storage
          mountPath: /app/model
      volumes:
      - name: model-storage
        persistentVolumeClaim:
          claimName: llm-model-pvc  # 绑定 PVC 存储模型文件
---
# 服务配置（负载均衡）
apiVersion: v1
kind: Service
metadata:
  name: llm-service
  namespace: ai-service
spec:
  type: LoadBalancer  # 云环境使用 LoadBalancer，本地使用 NodePort
  ports:
  - port: 80
    targetPort: 8000
  selector:
    app: llm-service
---
# 弹性伸缩配置
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: llm-hpa
  namespace: ai-service
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: llm-deployment
  minReplicas: 2
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 70
  - type: Resource
    resource:
      name: memory
      target:
        type: Utilization
        averageUtilization: 80

# 创建命名空间
kubectl create namespace ai-service
# 创建 PVC（需提前配置 PersistentVolume）
kubectl apply -f llm-pvc.yaml
# 部署应用
kubectl apply -f llm-deployment.yaml
# 查看部署状态
kubectl get pods -n ai-service
kubectl get svc -n ai-service

curl -X POST http://<external-ip>/inference \ 
-H "Content-Type: application/json" \ 
-d '{"prompt": "介绍 K8s 部署大模型的优势"}'

kubectl get svc llm-service -n ai-service

指标类型	具体指标	监控工具推荐	阈值建议
硬件资源指标	GPU 使用率、GPU 显存使用率	nvidia-smi、Prometheus	使用率≥90% 告警
	CPU 使用率、内存使用率	Prometheus、Grafana	CPU≥80%、内存≥85% 告警
	磁盘 IO、网络带宽	Prometheus	磁盘 IO≥100MB/s 告警
服务性能指标	接口响应时间（P95/P99）	Prometheus、Jaeger	P95≥1s 告警
	并发请求数、请求成功率	Prometheus	成功率<99.9% 告警
	队列长度（等待处理的请求数）	Prometheus	队列长度≥50 告警
模型精度指标	推理准确率、输出连贯性评分	自定义脚本、A/B 测试	准确率下降≥5% 告警

from prometheus_client import Counter, Gauge, Histogram, generate_latest, CONTENT_TYPE_LATEST
from fastapi import FastAPI, Request
from fastapi.responses import Response
import time
import psutil
import torch

# 初始化监控指标
REQUEST_COUNT = Counter("llm_request_count", "总请求数", ["status"])  # 按状态统计请求数
REQUEST_LATENCY = Histogram("llm_request_latency_seconds", "请求响应时间", buckets=[0.1, 0.5, 1, 2, 5])  # 响应时间分布
GPU_MEM_USAGE = Gauge("llm_gpu_mem_usage_gb", "GPU 显存使用率")  # GPU 显存使用率
CPU_USAGE = Gauge("llm_cpu_usage_percent", "CPU 使用率")  # CPU 使用率

# 注册监控接口
@app.get("/metrics", summary="监控指标接口")
async def metrics():
    # 更新 GPU 显存使用率
    gpu_mem = torch.cuda.max_memory_allocated() / 1024**3
    GPU_MEM_USAGE.set(gpu_mem)
    # 更新 CPU 使用率（需安装 psutil）
    cpu_usage = psutil.cpu_percent()
    CPU_USAGE.set(cpu_usage)
    return Response(content=generate_latest(), media_type=CONTENT_TYPE_LATEST)

# 中间件：统计请求数和响应时间
@app.middleware("http")
async def metrics_middleware(request: Request, call_next):
    start_time = time.time()
    try:
        response = await call_next(request)
        REQUEST_COUNT.labels(status="success").inc()  # 记录响应时间
        latency = time.time() - start_time
        REQUEST_LATENCY.observe(latency)
        return response
    except Exception:
        REQUEST_COUNT.labels(status="failed").inc()
        raise

global:
  scrape_interval: 15s  # 抓取间隔
scrape_configs:
- job_name: "llm-service"
  static_configs:
  - targets: ["llm-service:8000"]  # 大模型服务地址（K8s 中为 Service 名称）

version: "3"
services:
  prometheus:
    image: prom/prometheus:v2.45.0
    volumes:
    - ./prometheus.yml:/etc/prometheus/prometheus.yml
    - prometheus-data:/prometheus
    ports:
    - "9090:9090"
    command:
    - '--config.file=/etc/prometheus/prometheus.yml'
  grafana:
    image: grafana/grafana:10.0.0
    volumes:
    - grafana-data:/var/lib/grafana
    ports:
    - "3000:3000"
    depends_on:
    - prometheus
    environment:
    - GF_SECURITY_ADMIN_PASSWORD=admin123
volumes:
  prometheus-data:
  grafana-data:

from torch.profiler import profile, record_function, ProfilerActivity

with profile(activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof:
    with record_function("model_inference"):
        outputs = model.generate(**inputs, max_new_tokens=200)

# 打印分析结果
print(prof.key_averages().table(sort_by="cuda_time_total", row_limit=10))

batch_sizes = [1, 2, 4, 8, 16]
for bs in batch_sizes:
    inputs = tokenizer([prompt] * bs, return_tensors="pt").to(model.device)
    start = time.time()
    for _ in range(10):
        outputs = model.generate(**inputs, max_new_tokens=200)
    avg_time = (time.time() - start) / 10
    throughput = bs / avg_time  # 吞吐量（请求/秒）
    print(f"batch_size={bs}: 平均延迟={avg_time:.2f}s，吞吐量={throughput:.2f} req/s")

人工智能大模型部署与工程化落地实战

第十七章 人工智能大模型部署与工程化落地实战

一、章节学习目标与重点

1.1 学习目标

1.2 学习重点

二、大模型部署前的准备工作

2.1 需求与场景分析

2.1.1 核心需求拆解维度

2.1.2 典型场景需求对照表

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 硬件资源评估与选型

2.2.1 核心硬件选型指标

2.2.2 不同规模模型硬件选型推荐

2.3 软件环境配置

2.3.1 操作系统选择

2.3.2 核心软件配置步骤

三、大模型优化技术：提升部署效率

3.1 量化（Quantization）：降低精度换效率

3.1.1 量化类型与适用场景

3.1.2 INT8 量化实操（基于 Hugging Face Transformers）

3.1.3 量化效果验证

3.2 剪枝（Pruning）：去除冗余参数

3.2.1 剪枝类型

3.2.2 结构化剪枝实操（基于 TorchPrune）

3.3 蒸馏（Distillation）：小模型模仿大模型

3.3.1 蒸馏核心流程

3.3.2 文本生成模型蒸馏实操（基于 Hugging Face Transformers）

3.4 优化技术对比与选择建议

四、主流部署框架实战：从单机到集群

4.1 FastAPI：轻量实时部署（适合中小模型）

4.1.1 部署流程

4.1.2 性能优化建议

4.2 TorchServe：PyTorch 模型专用部署框架

4.2.1 部署流程

4.2.2 核心功能使用

4.3 TensorFlow Serving：TensorFlow 模型专用部署框架

4.3.1 部署流程

4.4 Kubernetes：云原生集群部署（适合大规模生产环境）

4.4.1 部署架构

4.4.2 部署流程

4.4.3 核心优势

五、大模型服务监控与性能调优

5.1 监控指标设计与实现

5.1.1 核心监控指标

5.1.2 Prometheus+Grafana 监控实现

5.2 性能瓶颈定位与调优

5.2.1 常见性能瓶颈

5.2.2 瓶颈定位方法

5.2.3 针对性调优策略

六、大模型落地全流程管理与合规风险控制

6.1 版本控制与迭代管理

6.1.1 模型版本控制规范

6.1.2 迭代流程管理

6.2 合规风险控制

6.2.1 数据合规

6.2.2 内容合规

6.2.3 技术合规措施

6.3 工程化规范与最佳实践

6.3.1 代码规范

6.3.2 部署规范

6.3.3 最佳实践总结

七、实战案例：10B 参数量 LLM 的集群部署与优化

7.1 案例背景

7.2 部署方案设计

7.2.1 硬件选型

7.2.2 模型优化

7.2.3 部署架构

7.3 实施步骤

7.4 效果验证

7.5 经验总结

八、本章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

第十七章人工智能大模型部署与工程化落地实战