大模型高效推理与部署技术实战 | 极客日志

PythonAI算法

大模型高效推理与部署技术实战

介绍大语言模型高效推理与部署的核心技术。主要涵盖三大优化方向：模型量化（INT4/INT8）、高性能推理框架（vLLM/TensorRT-LLM）及服务化部署（FastAPI）。通过 bitsandbytes 实现量化降低显存占用，利用 vLLM 的 PagedAttention 提升并发吞吐量，结合 FastAPI 搭建 API 服务并集成 Prometheus 监控。此外还涉及边缘设备部署的模型蒸馏与 ONNX 转换方案，旨在解决显存高、速度慢、并发弱的问题，实现生产级大模型落地。

怪力乱神发布于 2026/4/5更新于 2026/5/2026 浏览

大模型高效推理与部署技术实战

1.1 本章学习目标与重点

💡 学习目标：掌握大语言模型推理与部署的核心技术，理解模型量化、推理加速、服务化部署的原理，能够完成开源大模型的高性能生产级部署。 💡 学习重点：精通 INT4/INT8 量化技术的应用，掌握 vLLM 等高性能推理框架的使用方法，学会搭建高并发的大模型 API 服务。

1.2 大模型推理部署的核心挑战

1.2.1 大模型推理的痛点分析

💡 预训练大模型通常具备数十亿甚至上百亿的参数量，直接进行推理会面临显存占用高、推理速度慢、并发能力弱三大核心问题。

显存占用高：以 LLaMA-2-7B 模型为例，FP16 精度下显存占用约 14GB，单张消费级显卡难以承载；而 70B 模型 FP16 精度显存占用更是超过 140GB，普通硬件完全无法运行。
推理速度慢：自回归生成的特性导致模型需要逐 token 计算，单条长文本生成可能需要数十秒，无法满足实时应用需求。
并发能力弱：传统推理方式下，单卡同时处理的请求数极少，高并发场景下会出现严重的排队和延迟问题。

这些问题直接制约了大模型从实验室走向实际生产环境，因此高效推理与部署技术成为大模型落地的关键。

1.2.2 推理部署的核心优化方向

针对大模型推理的痛点，行业内形成了三大核心优化方向：

模型压缩：通过量化、蒸馏等技术，在损失少量精度的前提下，大幅降低模型的显存占用和计算量。
推理加速：通过算子优化、注意力机制改进、批处理优化等技术，提升单 token 的生成速度。
服务化部署：通过搭建高可用的 API 服务，实现模型的负载均衡、动态扩缩容和高并发处理。

⚠️ 注意：推理优化需要在精度、速度、显存三者之间做权衡，不同的应用场景需要选择不同的优化策略。

1.3 核心优化技术一：模型量化

1.3.1 量化技术的原理与分类

💡 模型量化是将模型参数从高精度（如 FP32、FP16）转换为低精度（如 INT8、INT4）的过程。其核心原理是利用低精度数据类型的存储空间更小、计算速度更快的特性，实现推理效率的提升。常见的量化精度和对应的显存占用对比（以 LLaMA-2-7B 为例）：

精度类型	理论显存占用	实际显存占用	精度损失	适用场景
FP32	28GB	30GB+	无	科研训练
FP16	14GB	16GB 左右	极小	高性能推理
INT8	7GB	8GB 左右	较小	消费级显卡部署
INT4	3.5GB	5GB 左右	中等	边缘设备部署

量化技术主要分为两类：

离线量化：推理前对模型参数进行量化，生成低精度模型文件，推理过程中直接加载低精度模型。
动态量化：推理时对模型的激活值进行实时量化，不需要预先处理模型文件，灵活性更高。

1.3.2 INT4/INT8 量化实战（基于 bitsandbytes）

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install bitsandbytes transformers accelerate torch

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

# 配置 4bit 量化参数
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

# 加载模型和分词器
model_name = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

# 推理函数定义
def generate_text(prompt, max_new_tokens=200):
    # 预处理输入
    inputs = tokenizer(
        prompt,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=1024
    ).to("cuda")
    
    # 生成文本
    outputs = model.generate(
        **inputs,
        max_new_tokens=max_new_tokens,
        temperature=0.7,
        top_p=0.9,
        repetition_penalty=1.1,
        do_sample=True
    )
    
    # 解码输出
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response

# 测试推理
prompt = "请解释什么是大语言模型的量化技术"
response = generate_text(prompt)
print(f"输入：{prompt}")
print(f"输出：{response}")

bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,
    device_map="auto"
)

框架名称	核心技术	速度提升	兼容性	部署难度
vLLM	PagedAttention	10-20 倍	高	低
TensorRT-LLM	张量 RT 优化	15-30 倍	中	中
TGI	动态批处理	5-10 倍	高	低
FastChat	分布式推理	8-15 倍	高	中

pip install vllm
# 如需支持特定 CUDA 版本，可从源码编译

from vllm import LLM, SamplingParams

# 加载模型
# 支持的模型包括 LLaMA、ChatGLM、Qwen、Baichuan 等主流开源模型
model_name = "meta-llama/Llama-2-7b-chat-hf"
llm = LLM(
    model=model_name,
    tensor_parallel_size=1,
    gpu_memory_utilization=0.9,
    quantization="4bit"
)

# 设置采样参数
sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    max_tokens=200,
    repetition_penalty=1.1
)

# 准备输入 prompts
prompts = [
    "请介绍大语言模型的推理优化技术",
    "解释一下 vLLM 的 PagedAttention 原理",
    "如何平衡大模型的推理速度和精度"
]

# 批量推理
outputs = llm.generate(prompts, sampling_params)

# 输出结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"输入：{prompt}")
    print(f"输出：{generated_text}\n")

import time
import random

# 生成 100 条测试 prompt
test_prompts = [f"请写一段关于{topic}的短文" for topic in ["人工智能", "大模型", "量化技术", "推理优化"] * 25]

# 记录开始时间
start_time = time.time()

# 批量推理
outputs = llm.generate(test_prompts, sampling_params)

# 计算耗时和吞吐量
end_time = time.time()
total_time = end_time - start_time
throughput = len(test_prompts) / total_time

print(f"完成{len(test_prompts)}条请求，总耗时：{total_time:.2f}秒")
print(f"吞吐量：{throughput:.2f} requests/sec")

import tensorrt_llm
from tensorrt_llm.models import LlamaForCausalLM

# 加载模型并编译为 TensorRT 引擎
model_name = "meta-llama/Llama-2-7b-chat-hf"
model = LlamaForCausalLM.from_pretrained(model_name)
engine = model.to_trt(
    dtype="float16",
    max_batch_size=32,
    max_input_len=1024,
    max_output_len=200
)

# 保存引擎
engine.save("llama2-7b-trt-engine")

from tensorrt_llm.runtime import ModelRunner

# 加载编译好的引擎
runner = ModelRunner.from_engine("llama2-7b-trt-engine")

# 推理
prompt = "请介绍 TensorRT-LLM 的优化原理"
output = runner.generate(prompt, max_new_tokens=200)
print(output)

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from vllm import LLM, SamplingParams
import uvicorn
import threading

# 初始化 FastAPI 应用
app = FastAPI(title="大模型推理 API 服务", version="1.0")

# 定义请求体模型
class InferenceRequest(BaseModel):
    prompt: str
    max_tokens: int = 200
    temperature: float = 0.7
    top_p: float = 0.9

# 定义响应体模型
class InferenceResponse(BaseModel):
    prompt: str
    response: str
    latency: float

# 全局变量：加载模型
model_name = "meta-llama/Llama-2-7b-chat-hf"
llm = LLM(
    model=model_name,
    tensor_parallel_size=1,
    gpu_memory_utilization=0.9,
    quantization="4bit"
)

# 推理接口
@app.post("/generate", response_model=InferenceResponse)
async def generate(request: InferenceRequest):
    try:
        # 设置采样参数
        sampling_params = SamplingParams(
            max_tokens=request.max_tokens,
            temperature=request.temperature,
            top_p=request.top_p,
            repetition_penalty=1.1
        )
        
        # 记录开始时间
        import time
        start_time = time.time()
        
        # 执行推理
        outputs = llm.generate([request.prompt], sampling_params)
        
        # 计算延迟
        latency = time.time() - start_time
        
        # 提取结果
        response_text = outputs[0].outputs[0].text
        return InferenceResponse(
            prompt=request.prompt,
            response=response_text,
            latency=latency
        )
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

# 健康检查接口
@app.get("/health")
async def health_check():
    return {"status": "healthy", "model": model_name}

# 启动服务
if __name__ == "__main__":
    uvicorn.run(
        app,
        host="0.0.0.0",
        port=8000,
        workers=1
    )

import requests
import json

# API 地址
url = "http://localhost:8000/generate"

# 请求数据
data = {
    "prompt": "请介绍大语言模型的服务化部署方案",
    "max_tokens": 300,
    "temperature": 0.6
}

# 发送请求
response = requests.post(url, json=data)

# 输出结果
if response.status_code == 200:
    result = response.json()
    print(f"输入：{result['prompt']}")
    print(f"输出：{result['response']}")
    print(f"延迟：{result['latency']:.2f}秒")
else:
    print(f"请求失败：{response.status_code} - {response.text}")

from prometheus_client import Counter, Histogram, generate_latest, CONTENT_TYPE_LATEST
from fastapi.responses import Response

# 定义监控指标
REQUEST_COUNT = Counter("inference_requests_total", "Total number of inference requests")
REQUEST_LATENCY = Histogram("inference_latency_seconds", "Inference latency in seconds")

# 修改推理接口，添加监控
@app.post("/generate", response_model=InferenceResponse)
async def generate(request: InferenceRequest):
    REQUEST_COUNT.inc()
    with REQUEST_LATENCY.time():
        # 原有推理逻辑
        pass

# 添加监控指标暴露接口
@app.get("/metrics")
async def metrics():
    return Response(generate_latest(), media_type=CONTENT_TYPE_LATEST)

from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from datasets import load_dataset

# 加载教师模型（大模型）和学生模型（小模型）
teacher_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-hf")
student_model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-1.3b-hf")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-1.3b-hf")

# 加载蒸馏数据集
dataset = load_dataset("cn_dailydialog", split="train[:10%]")

# 定义蒸馏训练参数
training_args = TrainingArguments(
    output_dir="./distilled-model",
    per_device_train_batch_size=4,
    learning_rate=5e-5,
    num_train_epochs=3,
    fp16=True
)

# 初始化 Trainer
trainer = Trainer(
    model=student_model,
    args=training_args,
    train_dataset=dataset,
    teacher_model=teacher_model
)

# 开始蒸馏训练
trainer.train()

# 保存蒸馏后的小模型
student_model.save_pretrained("./distilled-llama-1.3b")

from transformers import AutoModelForCausalLM, AutoTokenizer
import onnxruntime as ort
import torch

# 加载模型并转换为 ONNX 格式
model = AutoModelForCausalLM.from_pretrained("distilled-llama-1.3b")
tokenizer = AutoTokenizer.from_pretrained("distilled-llama-1.3b")

# 导出 ONNX 模型
dummy_input = tokenizer("测试输入", return_tensors="pt")
torch.onnx.export(
    model,
    (dummy_input["input_ids"], dummy_input["attention_mask"]),
    "llama-1.3b.onnx",
    opset_version=16,
    input_names=["input_ids", "attention_mask"],
    output_names=["logits"]
)

# 使用 ONNX Runtime 推理
ort_session = ort.InferenceSession("llama-1.3b.onnx")
inputs = tokenizer("请介绍 ONNX 部署的优势", return_tensors="np")
outputs = ort_session.run(None, {
    "input_ids": inputs["input_ids"],
    "attention_mask": inputs["attention_mask"]
})

大模型高效推理与部署技术实战

大模型高效推理与部署技术实战

1.1 本章学习目标与重点

1.2 大模型推理部署的核心挑战

1.2.1 大模型推理的痛点分析

1.2.2 推理部署的核心优化方向

1.3 核心优化技术一：模型量化

1.3.1 量化技术的原理与分类

1.3.2 INT4/INT8 量化实战（基于 bitsandbytes）

更多推荐文章

相关免费在线工具

① 环境准备

② INT4 量化模型加载与推理

③ INT8 量化实现

1.3.3 量化精度评估方法

1.4 核心优化技术二：高性能推理框架

1.4.1 主流推理框架对比

1.4.2 vLLM 推理框架实战

① 环境安装

② 基础推理示例

③ 高并发批量推理测试

1.4.3 TensorRT-LLM 优化实战（进阶）

① 模型编译

② 加载引擎推理

1.5 核心优化技术三：服务化部署

1.5.1 大模型服务化架构设计

1.5.2 基于 FastAPI 的大模型 API 服务

① 服务端代码实现

② 客户端调用示例

1.5.3 服务监控与运维

① 添加 Prometheus 监控

② 部署建议

1.6 边缘设备部署技术（进阶）

1.6.1 模型蒸馏技术

1.6.2 ONNX 格式转换与部署

1.7 本章总结

更多推荐文章

相关免费在线工具

大模型高效推理与部署技术实战

大模型高效推理与部署技术实战

1.1 本章学习目标与重点

1.2 大模型推理部署的核心挑战

1.2.1 大模型推理的痛点分析

1.2.2 推理部署的核心优化方向

1.3 核心优化技术一：模型量化

1.3.1 量化技术的原理与分类

1.3.2 INT4/INT8 量化实战（基于 bitsandbytes）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

① 环境准备

② INT4 量化模型加载与推理

③ INT8 量化实现

1.3.3 量化精度评估方法

1.4 核心优化技术二：高性能推理框架

1.4.1 主流推理框架对比

1.4.2 vLLM 推理框架实战

① 环境安装

② 基础推理示例

③ 高并发批量推理测试

1.4.3 TensorRT-LLM 优化实战（进阶）

① 模型编译

② 加载引擎推理

1.5 核心优化技术三：服务化部署

1.5.1 大模型服务化架构设计

1.5.2 基于 FastAPI 的大模型 API 服务

① 服务端代码实现

② 客户端调用示例

1.5.3 服务监控与运维

① 添加 Prometheus 监控

② 部署建议

1.6 边缘设备部署技术（进阶）

1.6.1 模型蒸馏技术

1.6.2 ONNX 格式转换与部署

1.7 本章总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具