Qwen3.5-27B部署：FastAPI服务封装与transformers推理适配 | 极客日志

PythonAI算法

Qwen3.5-27B部署：FastAPI服务封装与transformers推理适配

综述由AI生成Qwen3.5-27B大模型的本地化部署流程。内容涵盖环境搭建、模型加载模块编写、基于FastAPI的API服务封装以及Supervisor进程管理。通过代码示例展示了文本生成、流式输出及图片理解接口的实现方法，并提供了性能优化建议和常见问题解决方案，帮助开发者快速构建稳定的多模态AI服务。

MqEngine发布于 2026/4/6更新于 2026/5/2231 浏览

Qwen3.5-27B 部署教程：FastAPI 服务封装+transformers 推理适配详解

1. 引言：从模型到服务，一步到位

如果你手头有一个强大的 Qwen3.5-27B 模型，却不知道怎么把它变成一个随时可用的在线服务，这篇文章就是为你准备的。

想象一下这个场景：你拿到了一个支持文本对话和图片理解的多模态大模型，它功能强大，但还只是一堆代码和权重文件。你想让团队里的产品经理、设计师甚至不懂技术的同事都能轻松使用它，该怎么办？答案就是：把它封装成一个 Web 服务。

今天，我将带你一步步完成这个从'模型文件'到'在线服务'的转变。我们会用 FastAPI 搭建一个简洁高效的 API 服务，用 transformers 库来驱动模型推理，最终得到一个开箱即用的中文 Web 对话界面和完整的 API 接口。

学完这篇教程，你将掌握：

如何为 Qwen3.5-27B 搭建完整的服务环境
如何用 FastAPI 封装文本和图片推理接口
如何实现流式输出，让对话体验更自然
如何用 Supervisor 管理服务进程，确保稳定运行
如何处理多卡 GPU 的模型加载和推理

无论你是想快速部署一个内部测试环境，还是为产品集成 AI 能力，这篇教程都能给你清晰的指引。我们直接从实战出发，跳过那些繁琐的理论，让你在 30 分钟内看到成果。

2. 环境准备：搭建你的 AI 服务基础

在开始写代码之前，我们需要先把环境搭建好。别担心，整个过程就像搭积木一样简单，我会带你一步步完成。

2.1 系统与硬件要求

首先，确认你的机器满足以下条件：

硬件要求：

GPU：至少 4 张 RTX 4090 D（24GB 显存）或同等算力
内存：64GB 以上
磁盘空间：100GB 以上（用于存放模型和依赖）

软件要求：

操作系统：Ubuntu 20.04 或更高版本
Python：3.9 或 3.10 版本
CUDA：11.8 或更高版本

如果你使用的是云服务器，确保已经安装了 NVIDIA 驱动和 CUDA 工具包。可以用下面的命令检查：

# 检查 GPU 状态
nvidia-smi
# 检查 CUDA 版本
nvcc --version
# 检查 Python 版本
python3 --version

2.2 创建虚拟环境

为了避免依赖冲突，我们使用 conda 创建一个独立的 Python 环境：

# 创建名为 qwen3527 的虚拟环境
conda create -n qwen3527 python=3.10 -y
# 激活环境
conda activate qwen3527

2.3 安装核心依赖

接下来安装 transformers、torch 和 FastAPI 等核心库：

# 安装 PyTorch（根据你的 CUDA 版本选择）
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 安装 transformers 和相关库
pip install transformers accelerate
# 安装 FastAPI 和 Web 服务器
pip install fastapi uvicorn[standard]
# 安装图片处理相关库
pip install pillow opencv-python
# 安装 Supervisor（用于进程管理）
pip install supervisor

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple torch transformers fastapi

# 创建模型目录
mkdir -p /root/ai-models/Qwen/Qwen3.5-27B
# 使用 huggingface-cli 下载（需要先登录）
pip install huggingface-hub
huggingface-cli login
# 输入你的 token
# 下载模型
huggingface-cli download Qwen/Qwen3.5-27B --local-dir /root/ai-models/Qwen/Qwen3.5-27B
# 或者使用 git（如果模型仓库支持）
git lfs install
git clone https://huggingface.co/Qwen/Qwen3.5-27B /root/ai-models/Qwen/Qwen3.5-27B

/root/ai-models/Qwen/Qwen3.5-27B/
├── config.json
├── model.safetensors
├── tokenizer.json
├── tokenizer_config.json
└── ...其他文件

# model_loader.py
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, AutoProcessor
from accelerate import infer_auto_device_map, init_empty_weights, load_checkpoint_and_dispatch
import logging

logger = logging.getLogger(__name__)

class QwenModelLoader:
    def __init__(self, model_path, device_map="auto"):
        """
        初始化模型加载器
        Args:
            model_path: 模型路径
            device_map: 设备映射策略，支持"auto"、"balanced"、"sequential"或自定义字典
        """
        self.model_path = model_path
        self.device_map = device_map
        self.model = None
        self.tokenizer = None
        self.processor = None

    def load_model(self):
        """加载文本生成模型"""
        logger.info(f"开始加载模型：{self.model_path}")
        try:
            # 1. 先加载 tokenizer
            self.tokenizer = AutoTokenizer.from_pretrained(
                self.model_path, trust_remote_code=True, padding_side="left"
            )
            # 设置 pad_token（Qwen 模型需要）
            if self.tokenizer.pad_token is None:
                self.tokenizer.pad_token = self.tokenizer.eos_token
            # 2. 加载模型
            self.model = AutoModelForCausalLM.from_pretrained(
                self.model_path,
                torch_dtype=torch.float16,  # 使用半精度减少显存占用
                device_map=self.device_map,
                trust_remote_code=True,
                low_cpu_mem_usage=True  # 减少 CPU 内存使用
            )
            # 3. 设置为评估模式
            self.model.eval()
            logger.info("模型加载完成!")
            return True
        except Exception as e:
            logger.error(f"模型加载失败：{str(e)}")
            return False

    def load_processor(self):
        """加载多模态处理器（用于图片理解）"""
        try:
            self.processor = AutoProcessor.from_pretrained(
                self.model_path, trust_remote_code=True
            )
            logger.info("多模态处理器加载完成!")
            return True
        except Exception as e:
            logger.warning(f"多模态处理器加载失败，图片功能将不可用：{str(e)}")
            return False

    def generate_text(self, prompt, max_new_tokens=128, temperature=0.7):
        """文本生成"""
        if not self.model or not self.tokenizer:
            raise ValueError("模型未加载")
        # 编码输入
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        # 生成文本
        with torch.no_grad():
            outputs = self.model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                temperature=temperature,
                do_sample=True,
                pad_token_id=self.tokenizer.pad_token_id,
                eos_token_id=self.tokenizer.eos_token_id
            )
        # 解码输出
        generated_text = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        # 移除输入部分，只返回新生成的内容
        if generated_text.startswith(prompt):
            generated_text = generated_text[len(prompt):].strip()
        return generated_text

    def process_image(self, image_path, prompt):
        """处理图片理解请求"""
        if not self.processor:
            raise ValueError("多模态处理器未加载")
        # 这里简化处理，实际需要根据模型的具体接口实现
        # Qwen3.5-27B 的图片处理逻辑
        from PIL import Image
        image = Image.open(image_path).convert("RGB")
        # 构建多模态输入
        messages = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": prompt},
                    {"type": "image", "image": image}
                ]
            }
        ]
        # 这里需要根据模型的实际接口进行调整
        # 实际使用时请参考 Qwen 官方文档
        text = self.processor.apply_chat_template(
            messages, tokenize=False, add_generation_prompt=True
        )
        return text

# app.py
from fastapi import FastAPI, HTTPException, UploadFile, File, Form
from fastapi.responses import StreamingResponse, JSONResponse
from fastapi.middleware.cors import CORSMiddleware
from pydantic import BaseModel
import asyncio
import json
import logging
from typing import Optional
import uuid
from model_loader import QwenModelLoader

# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

# 创建 FastAPI 应用
app = FastAPI(
    title="Qwen3.5-27B API 服务",
    description="基于 FastAPI 封装的 Qwen3.5-27B 多模态模型服务",
    version="1.0.0"
)

# 添加 CORS 中间件（允许跨域请求）
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],  # 生产环境应该限制域名
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# 全局模型实例
model_loader = None

# 请求和响应模型
class TextRequest(BaseModel):
    """文本生成请求"""
    prompt: str
    max_new_tokens: int = 128
    temperature: float = 0.7
    stream: bool = False

class ImageRequest(BaseModel):
    """图片理解请求"""
    prompt: str
    max_new_tokens: int = 128
    # 图片通过表单上传，这里只定义文本参数

class ChatMessage(BaseModel):
    """聊天消息"""
    role: str  # "user" 或 "assistant"
    content: str

class ChatRequest(BaseModel):
    """多轮对话请求"""
    messages: list[ChatMessage]
    max_new_tokens: int = 256
    temperature: float = 0.7
    stream: bool = False

@app.on_event("startup")
async def startup_event():
    """服务启动时加载模型"""
    global model_loader
    logger.info("正在启动 Qwen3.5-27B 服务...")
    # 初始化模型加载器
    model_loader = QwenModelLoader(
        model_path="/root/ai-models/Qwen/Qwen3.5-27B",
        device_map="auto"  # 自动分配多 GPU
    )
    # 加载模型
    if not model_loader.load_model():
        raise RuntimeError("模型加载失败，服务启动中止")
    # 尝试加载多模态处理器
    model_loader.load_processor()
    logger.info("Qwen3.5-27B 服务启动完成!")

@app.get("/")
async def root():
    """健康检查端点"""
    return {
        "status": "running",
        "model": "Qwen3.5-27B",
        "service": "FastAPI + Transformers",
        "endpoints": {
            "text_generation": "/generate",
            "stream_chat": "/chat_stream",
            "image_understanding": "/generate_with_image",
            "health_check": "/health"
        }
    }

@app.get("/health")
async def health_check():
    """健康检查"""
    if model_loader and model_loader.model:
        return {"status": "healthy", "model_loaded": True}
    return {"status": "unhealthy", "model_loaded": False}

@app.post("/generate")
async def generate_text(request: TextRequest):
    """文本生成接口（非流式）"""
    try:
        if not model_loader:
            raise HTTPException(status_code=503, detail="模型未加载")
        # 生成文本
        result = model_loader.generate_text(
            prompt=request.prompt,
            max_new_tokens=request.max_new_tokens,
            temperature=request.temperature
        )
        return {
            "response": result,
            "tokens_generated": len(model_loader.tokenizer.encode(result)),
            "model": "Qwen3.5-27B"
        }
    except Exception as e:
        logger.error(f"文本生成失败：{str(e)}")
        raise HTTPException(status_code=500, detail=f"生成失败：{str(e)}")

async def text_generator(prompt, max_tokens, temperature):
    """流式文本生成器"""
    if not model_loader:
        yield json.dumps({"error": "模型未加载"}) + "\n"
        return
    # 这里简化实现，实际需要根据模型支持情况实现真正的流式生成
    # 对于 transformers，可以使用 generate(streamer=...) 参数
    # 模拟流式输出（实际使用时需要替换为真正的流式生成）
    full_response = model_loader.generate_text(prompt, max_tokens, temperature)
    # 将回复分成多个 chunk 逐步返回
    words = full_response.split()
    for i in range(0, len(words), 2):  # 每次返回 2 个词
        chunk = " ".join(words[i:i+2])
        if chunk:
            yield json.dumps({
                "token": chunk,
                "finished": False
            }) + "\n"
        await asyncio.sleep(0.05)  # 模拟生成延迟
    yield json.dumps({"token": "", "finished": True}) + "\n"

@app.post("/chat_stream")
async def chat_stream(request: ChatRequest):
    """流式聊天接口"""
    if request.stream:
        # 构建完整的 prompt（将多轮对话拼接）
        prompt = ""
        for msg in request.messages:
            prompt += f"{msg.role}: {msg.content}\n"
        prompt += "assistant: "
        return StreamingResponse(
            text_generator(prompt, request.max_new_tokens, request.temperature),
            media_type="application/x-ndjson"
        )
    else:
        # 非流式响应
        prompt = ""
        for msg in request.messages:
            prompt += f"{msg.role}: {msg.content}\n"
        prompt += "assistant: "
        result = model_loader.generate_text(
            prompt=prompt,
            max_new_tokens=request.max_new_tokens,
            temperature=request.temperature
        )
        return {
            "response": result,
            "messages": request.messages + [{"role": "assistant", "content": result}]
        }

@app.post("/generate_with_image")
async def generate_with_image(
    prompt: str = Form(...),
    max_new_tokens: int = Form(128),
    image: UploadFile = File(...)
):
    """图片理解接口"""
    try:
        if not model_loader or not model_loader.processor:
            raise HTTPException(status_code=503, detail="图片处理功能不可用")
        # 保存上传的图片
        import os
        temp_dir = "/tmp/qwen_images"
        os.makedirs(temp_dir, exist_ok=True)
        image_path = os.path.join(temp_dir, f"{uuid.uuid4()}.png")
        # 读取并保存图片
        contents = await image.read()
        with open(image_path, "wb") as f:
            f.write(contents)
        # 处理图片
        processed_text = model_loader.process_image(image_path, prompt)
        # 生成回复
        result = model_loader.generate_text(
            prompt=processed_text,
            max_new_tokens=max_new_tokens
        )
        # 清理临时文件
        try:
            os.remove(image_path)
        except:
            pass
        return {
            "response": result,
            "image_processed": True,
            "prompt": prompt
        }
    except Exception as e:
        logger.error(f"图片处理失败：{str(e)}")
        raise HTTPException(status_code=500, detail=f"图片处理失败：{str(e)}")

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(
        app, host="0.0.0.0", port=7860, log_level="info"
    )

<!-- templates/index.html -->
<!DOCTYPE html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Qwen3.5-27B 对话界面</title>
    <style>
        * { margin: 0; padding: 0; box-sizing: border-box; }
        body { font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif; line-height: 1.6; color: #333; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); min-height: 100vh; padding: 20px; }
        .container { max-width: 1200px; margin: 0 auto; background: white; border-radius: 20px; box-shadow: 0 20px 60px rgba(0,0,0,0.3); overflow: hidden; }
        .header { background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; padding: 30px; text-align: center; }
        .header h1 { font-size: 2.5em; margin-bottom: 10px; }
        .header p { opacity: 0.9; font-size: 1.1em; }
        .main-content { display: flex; min-height: 600px; }
        .chat-container { flex: 3; padding: 30px; border-right: 1px solid #eee; }
        .chat-history { height: 400px; overflow-y: auto; padding: 20px; background: #f8f9fa; border-radius: 10px; margin-bottom: 20px; }
        .message { margin-bottom: 20px; padding: 15px; border-radius: 10px; max-width: 80%; }
        .user-message { background: #e3f2fd; margin-left: auto; border-bottom-right-radius: 2px; }
        .assistant-message { background: #f5f5f5; margin-right: auto; border-bottom-left-radius: 2px; }
        .input-area { display: flex; gap: 10px; }
        #userInput { flex: 1; padding: 15px; border: 2px solid #ddd; border-radius: 10px; font-size: 16px; resize: none; min-height: 60px; max-height: 120px; }
        #userInput:focus { outline: none; border-color: #667eea; }
        button { padding: 0 30px; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; border: none; border-radius: 10px; font-size: 16px; cursor: pointer; transition: transform 0.2s; }
        button:hover { transform: translateY(-2px); }
        button:disabled { opacity: 0.6; cursor: not-allowed; }
        .info-panel { flex: 1; padding: 30px; background: #f8f9fa; }
        .info-section { margin-bottom: 30px; }
        .info-section h3 { color: #667eea; margin-bottom: 15px; padding-bottom: 10px; border-bottom: 2px solid #667eea; }
        .status-indicator { display: inline-block; width: 12px; height: 12px; border-radius: 50%; margin-right: 10px; }
        .status-online { background: #4CAF50; box-shadow: 0 0 10px #4CAF50; }
        .api-example { background: white; padding: 15px; border-radius: 8px; margin-top: 10px; font-family: 'Courier New', monospace; font-size: 14px; overflow-x: auto; }
        .streaming { animation: pulse 1.5s infinite; }
        @keyframes pulse { 0% { opacity: 1; } 50% { opacity: 0.5; } 100% { opacity: 1; } }
        @media (max-width: 768px) { .main-content { flex-direction: column; } .chat-container { border-right: none; border-bottom: 1px solid #eee; } }
    </style>
</head>
<body>
<div class="container">
    <div class="header">
        <h1>Qwen3.5-27B 智能对话</h1>
        <p>支持文本对话与图片理解的多模态 AI 助手</p>
    </div>
    <div class="main-content">
        <div class="chat-container">
            <div class="chat-history" id="chatHistory">
                <div class="message assistant-message">
                    <strong>Qwen 助手：</strong>你好！我是 Qwen3.5-27B，一个支持文本和图片理解的多模态 AI 助手。有什么可以帮你的吗？
                </div>
            </div>
            <div class="input-area">
                <textarea placeholder="输入你的问题...（支持 Ctrl+Enter 发送）" rows="3" id="userInput"></textarea>
                <button onclick="sendMessage()">发送</button>
            </div>
            <div style="margin-top: 10px;">
                <p>💡 提示：按 Ctrl+Enter 快速发送消息</p>
            </div>
        </div>
        <div class="info-panel">
            <div class="info-section">
                <h3>服务状态</h3>
                <p><span class="status-indicator status-online"></span><span id="statusText">服务运行正常</span></p>
                <p>模型：Qwen3.5-27B</p>
                <p>模式：流式对话</p>
            </div>
            <div class="info-section">
                <h3>API 接口示例</h3>
                <div class="api-example">
                    <strong>文本生成：</strong><br>
                    POST /generate<br>
                    {
                        &nbsp;&nbsp;"prompt": "你好",
                        &nbsp;&nbsp;"max_new_tokens": 128
                    }
                </div>
                <div class="api-example" style="margin-top: 10px;">
                    <strong>流式聊天：</strong><br>
                    POST /chat_stream<br>
                    {
                        &nbsp;&nbsp;"messages": [
                            {"role": "user", "content": "你好"}
                        ],
                        &nbsp;&nbsp;"stream": true
                    }
                </div>
            </div>
            <div class="info-section">
                <h3>使用说明</h3>
                <ul>
                    <li>输入问题后点击发送或按 Ctrl+Enter</li>
                    <li>支持多轮对话，上下文会自动保留</li>
                    <li>回复会以流式方式逐步显示</li>
                    <li>图片理解功能可通过 API 调用</li>
                </ul>
            </div>
        </div>
    </div>
</div>
<script>
    const chatHistory = document.getElementById('chatHistory');
    const userInput = document.getElementById('userInput');
    const sendButton = document.getElementById('sendButton');
    const statusText = document.getElementById('statusText');
    let isStreaming = false;
    // 监听 Ctrl+Enter 快捷键
    userInput.addEventListener('keydown', function(e) {
        if (e.ctrlKey && e.key === 'Enter') {
            sendMessage();
        }
    });
    // 自动调整输入框高度
    userInput.addEventListener('input', function() {
        this.style.height = 'auto';
        this.style.height = (this.scrollHeight) + 'px';
    });

    async function sendMessage() {
        const message = userInput.value.trim();
        if (!message || isStreaming) return;
        
        (, message);
        
        userInput. = ;
        userInput.. = ;
        
        sendButton. = ;
        isStreaming = ;
        statusText. = ;
        statusText..();
         {
            
             messages = [];
             messageElements = chatHistory.();
            messageElements.( {
                 isUser = el..();
                 content = el.() ? el..()[] : el.;
                messages.({ : isUser ?  : , : content.() });
            });
            
            messages.({ : , : message });
            
             response =  (, {
                : ,
                : { : , },
                : .({ : messages, : , : , :  })
            });
             (!response.) {
                  ();
            }
            
             assistantMessageDiv = .();
            assistantMessageDiv. = ;
            assistantMessageDiv. = ;
            chatHistory.(assistantMessageDiv);
            chatHistory. = chatHistory.;
             streamingText = .();
             reader = response..();
             decoder =  ();
             buffer = ;
             () {
                 { done, value } =  reader.();
                 (done) ;
                buffer += decoder.(value, { :  });
                 lines = buffer.();
                buffer = lines.(); 
                 ( line  lines) {
                     (line.()) {
                         {
                             data = .(line);
                             (data.) {
                                streamingText. += data. + ;
                            }
                             (data.) {
                                ;
                            }
                        }  (e) {
                            .(, e);
                        }
                    }
                }
                chatHistory. = chatHistory.;
            }
        }  (error) {
            .(, error);
            (, );
        }  {
            
            sendButton. = ;
            isStreaming = ;
            statusText. = ;
            statusText..();
            userInput.();
        }
    }

     () {
         messageDiv = .();
        messageDiv. = ;
         (role === ) {
            messageDiv. = ;
        }  {
            messageDiv. = ;
        }
        chatHistory.(messageDiv);
        chatHistory. = chatHistory.;
    }
    
    userInput.();
</script>
</body>
</html>

; /etc/supervisor/conf.d/qwen3527.conf
[program:qwen3527]
command=/opt/conda/envs/qwen3527/bin/uvicorn app:app --host 0.0.0.0 --port 7860 --workers 1
directory=/opt/qwen3527-27b
autostart=true
autorestart=true
startsecs=10
startretries=3
user=root
redirect_stderr=true
stdout_logfile=/root/workspace/qwen3527.log
stderr_logfile=/root/workspace/qwen3527.err.log
environment=PYTHONPATH="/opt/qwen3527-27b",PYTHONUNBUFFERED="1"

[supervisord]
logfile=/var/log/supervisor/supervisord.log
logfile_maxbytes=50MB
logfile_backups=10
loglevel=info
pidfile=/var/run/supervisord.pid
nodaemon=false
minfds=1024
minprocs=200

[unix_http_server]
file=/var/run/supervisor.sock
chmod=0700

[supervisorctl]
serverurl=unix:///var/run/supervisor.sock

[rpcinterface:supervisor]
supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface

# 1. 创建服务目录
mkdir -p /opt/qwen3527-27b
cd /opt/qwen3527-27b
# 2. 复制所有代码文件
cp /path/to/your/code/model_loader.py .
cp /path/to/your/code/app.py .
mkdir templates
cp /path/to/your/code/templates/index.html templates/
# 3. 安装依赖（如果还没安装）
pip install -r requirements.txt
# 4. 创建 requirements.txt 文件
cat > requirements.txt << 'EOF'
torch==2.1.0
transformers==4.35.0
accelerate==0.24.1
fastapi==0.104.1
uvicorn[standard]==0.24.0
pillow==10.1.0
opencv-python==4.8.1.78
supervisor==4.2.5
EOF
# 5. 配置 Supervisor
sudo cp qwen3527.conf /etc/supervisor/conf.d/
sudo supervisorctl reread
sudo supervisorctl update
# 6. 启动服务
sudo supervisorctl start qwen3527
# 7. 检查服务状态
sudo supervisorctl status qwen3527
# 8. 查看日志确认服务正常运行
tail -f /root/workspace/qwen3527.log

curl http://127.0.0.1:7860/

{
  "status": "running",
  "model": "Qwen3.5-27B",
  "service": "FastAPI + Transformers"
}

cat > /tmp/test_text.json << 'EOF'
{
  "prompt": "请用中文介绍一下你自己",
  "max_new_tokens": 128,
  "temperature": 0.7
}
EOF
curl -X POST http://127.0.0.1:7860/generate \
-H "Content-Type: application/json" \
-d @/tmp/test_text.json

cat > /tmp/test_stream.json << 'EOF'
{
  "messages": [
    {"role": "user", "content": "你好，请介绍一下 AI 的发展历史"}
  ],
  "max_new_tokens": 256,
  "temperature": 0.7,
  "stream": true
}
EOF
# 使用 curl 测试流式响应
curl -X POST http://127.0.0.1:7860/chat_stream \
-H "Content-Type: application/json" \
-d @/tmp/test_stream.json \
-N

# 准备一张测试图片
curl -X POST http://127.0.0.1:7860/generate_with_image \
-F "prompt=请描述这张图片的主要内容" \
-F "max_new_tokens=128" \
-F "image=@/path/to/test_image.jpg"

http://localhost:7860/

# 在 model_loader.py 中添加优化配置
class OptimizedQwenModelLoader(QwenModelLoader):
    def __init__(self, model_path, device_map="auto"):
        super().__init__(model_path, device_map)

    def load_model(self):
        """优化版的模型加载"""
        from transformers import BitsAndBytesConfig
        # 使用 4-bit 量化减少显存占用
        quantization_config = BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_quant_type="nf4",
            bnb_4bit_use_double_quant=True,
        )
        self.model = AutoModelForCausalLM.from_pretrained(
            self.model_path,
            quantization_config=quantization_config,  # 添加量化配置
            device_map=self.device_map,
            trust_remote_code=True,
            low_cpu_mem_usage=True,
            torch_dtype=torch.float16,
        )
        # 启用更好的注意力实现（如果可用）
        if hasattr(self.model.config, "use_flash_attention_2"):
            self.model.config.use_flash_attention_2 = True
        self.model.eval()
        return True

RuntimeError: CUDA out of memory

# 方法 1：使用更小的模型精度
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,  # 使用半精度
    low_cpu_mem_usage=True
)
# 方法 2：使用量化
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16
)
# 方法 3：使用 CPU 卸载（部分层放在 CPU 上）
device_map = {
    "transformer.word_embeddings": 0,
    "transformer.layers.0": 0,
    "transformer.layers.1": 0,
    # ... 按需分配
    "lm_head": "cpu"  # 最后一层放在 CPU
}

ConnectionError: Could not reach server

# 方法 1：使用镜像源
export HF_ENDPOINT=https://hf-mirror.com
# 方法 2：手动下载
# 1. 在能访问的机器上下载
# 2. 使用 scp 或 rsync 复制到目标机器
# 3. 从本地目录加载
model = AutoModelForCausalLM.from_pretrained(
    "/local/path/to/model", local_files_only=True
)

Address already in use

# 查看哪个进程占用了 7860 端口
sudo lsof -i :7860
# 停止占用进程
sudo kill -9 <PID>
# 或者修改服务端口
# 在 app.py 中修改
uvicorn.run(app, host="0.0.0.0", port=7861)

ERROR (spawn error)

# 1. 检查配置文件语法
sudo supervisorctl -c /etc/supervisor/supervisord.conf
# 2. 查看详细错误日志
sudo tail -100 /root/workspace/qwen3527.err.log
# 3. 常见问题：
# - Python 路径错误：确保 command 中的 Python 路径正确
# - 权限问题：确保 user 有目录访问权限
# - 依赖缺失：检查是否安装了所有依赖
# 4. 手动测试启动
cd /opt/qwen3527-27b
/opt/conda/envs/qwen3527/bin/python app.py

生成 128 个 token 需要 10 秒以上

# 1. 启用更好的注意力机制
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    attn_implementation="flash_attention_2",  # 如果支持
    torch_dtype=torch.float16
)
# 2. 调整生成参数
outputs = model.generate(
    **inputs,
    max_new_tokens=128,
    temperature=0.7,
    do_sample=True,
    top_p=0.9,  # 使用 top-p 采样
    top_k=50,   # 使用 top-k 采样
    repetition_penalty=1.1,  # 避免重复
    num_beams=1,  # 使用贪心搜索（速度最快）
)
# 3. 使用缓存加速
model.config.use_cache = True

流式输出卡顿或中断

# 1. 使用 transformers 的 Streamer
from transformers import TextStreamer
streamer = TextStreamer(
    tokenizer, skip_prompt=True, skip_special_tokens=True
)
# 2. 在 generate 中使用 streamer
outputs = model.generate(
    **inputs,
    max_new_tokens=128,
    streamer=streamer
)
# 3. 在 FastAPI 中实现真正的流式
@app.post("/stream_generate")
async def stream_generate(request: TextRequest):
    async def event_generator():
        # 使用 yield 逐步返回 token
        for token in generate_tokens_stream(request.prompt):
            yield f"data: {json.dumps({'token': token})}\n\n"
    return StreamingResponse(
        event_generator(),
        media_type="text/event-stream"
    )

想要添加文件上传、语音输入等功能

# 1. 添加文件上传处理
@app.post("/upload_file")
async def upload_file(file: UploadFile = File(...)):
    # 保存文件
    contents = await file.read()
    file_path = f"/tmp/{file.filename}"
    with open(file_path, "wb") as f:
        f.write(contents)
    # 根据文件类型处理
    if file.filename.endswith('.txt'):  # 处理文本文件
        with open(file_path, 'r') as f:
            text = f.read()
        result = model_loader.generate_text(text)
        return {"filename": file.filename, "result": result}
# 2. 添加批量处理
@app.post("/batch_generate")
async def batch_generate(requests: List[TextRequest]):
    results = []
    for req in requests:
        result = model_loader.generate_text(
            prompt=req.prompt,
            max_new_tokens=req.max_new_tokens
        )
        results.append(result)
    return {"results": results}

需要限制 API 访问权限

from fastapi import Depends, HTTPException, status
from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
security = HTTPBearer()
API_KEYS = { "your-api-key-here": "user1" }

def verify_api_key(credentials: HTTPAuthorizationCredentials = Depends(security)):
    if credentials.credentials not in API_KEYS:
        raise HTTPException(
            status_code=status.HTTP_401_UNAUTHORIZED,
            detail="Invalid API Key"
        )
    return API_KEYS[credentials.credentials]

@app.post("/secure_generate")
async def secure_generate(
    request: TextRequest,
    user: str = Depends(verify_api_key)
):
    # 只有验证通过的用户才能访问
    result = model_loader.generate_text(
        prompt=request.prompt,
        max_new_tokens=request.max_new_tokens
    )
    return {"user": user, "result": result}

Qwen3.5-27B部署：FastAPI服务封装与transformers推理适配

Qwen3.5-27B 部署教程：FastAPI 服务封装+transformers 推理适配详解

1. 引言：从模型到服务，一步到位

2. 环境准备：搭建你的 AI 服务基础

2.1 系统与硬件要求

2.2 创建虚拟环境

2.3 安装核心依赖

2.4 下载模型权重

3. 核心代码实现：构建完整的 API 服务

3.1 模型加载模块

3.2 FastAPI 服务模块

3.3 Web 界面模块

3.4 Supervisor 配置

4. 部署与测试：让服务跑起来

4.1 服务部署步骤

4.2 服务测试

测试 1：健康检查

测试 2：文本生成 API

测试 3：流式聊天 API

测试 4：图片理解 API

测试 5：Web 界面访问

4.3 性能优化建议

5. 常见问题与解决方案

5.1 模型加载问题

5.2 服务运行问题

5.3 性能优化问题

5.4 功能扩展问题

6. 总结与下一步

6.1 核心成果

6.2 性能表现

6.3 实用建议

6.4 扩展方向

6.5 最后的话

更多推荐文章

相关免费在线工具

Qwen3.5-27B部署：FastAPI服务封装与transformers推理适配

Qwen3.5-27B 部署教程：FastAPI 服务封装+transformers 推理适配详解

1. 引言：从模型到服务，一步到位

2. 环境准备：搭建你的 AI 服务基础

2.1 系统与硬件要求

2.2 创建虚拟环境

2.3 安装核心依赖

2.4 下载模型权重

3. 核心代码实现：构建完整的 API 服务

3.1 模型加载模块

3.2 FastAPI 服务模块

3.3 Web 界面模块

3.4 Supervisor 配置

4. 部署与测试：让服务跑起来

4.1 服务部署步骤

4.2 服务测试

测试 1：健康检查

测试 2：文本生成 API

测试 3：流式聊天 API

测试 4：图片理解 API

测试 5：Web 界面访问

4.3 性能优化建议

5. 常见问题与解决方案

5.1 模型加载问题

5.2 服务运行问题

5.3 性能优化问题

5.4 功能扩展问题

6. 总结与下一步

6.1 核心成果

6.2 性能表现

6.3 实用建议

6.4 扩展方向

6.5 最后的话

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具