Windows 平台 Qwen1.5 大模型部署指南 | 极客日志

PythonAI算法

Windows 平台 Qwen1.5 大模型部署指南

综述由AI生成在 Windows 平台上部署 Qwen1.5 大模型的完整流程，涵盖 GPU 驱动配置、Anaconda 环境搭建、虚拟环境创建、依赖库安装及模型下载。内容包括使用 PyTorch 加载模型运行本地 Demo，以及基于 FastAPI 和 Uvicorn 构建支持流式输出的 RESTful API 接口。最后提供了常见问题的排查建议，帮助开发者快速完成大模型本地化部署与接口服务化。

不知所云发布于 2025/2/6更新于 2026/6/320 浏览

Windows 平台 Qwen1.5 大模型部署指南

本文介绍了在 Windows 电脑上如何部署 Qwen1.5 大模型，涉及 Python 环境配置、GPU 驱动设置及 API 服务化。

前置要求

操作系统：Windows 10/11
硬件：支持 CUDA 的 NVIDIA 显卡（如 GTX 1060 及以上）
基础：具备后端编程基础，了解 Python 基本语法

GPU 驱动升级

访问 NVIDIA 官网下载适合您显卡的驱动程序。例如 GTX 1060 用户可选择对应版本。
点击搜索后会给出一些驱动选择，建议选择与后续 CUDA 版本兼容的版本，例如 537 版本配合 CUDA 12.2。

安装 Anaconda

Anaconda 是一个用于科学计算的 Python 发行版，支持 Linux, Mac, Windows，包含众多流行的科学计算、数据分析包。Conda 是开源的包和环境管理器，可用于在同一机器上安装不同版本的软件包及其依赖，并能够在不同的环境之间切换。

删除原有 Python

由于 Conda 环境可以指定相应的 Python 版本，建议卸载全局安装的 Python 以避免冲突。

通过控制面板 -> 卸载程序，找到 Python 进行卸载。
通过左下角搜索框搜'环境变量' -> 编辑系统环境变量 -> 右下角环境变量 -> 系统变量 -> Path。
找到原来 Python 安装地址的两条记录，将其删除。退出时记得点确定。

下载 Anaconda3

访问 Anaconda 官网，点击下载安装包链接。注意按时间倒排查看最新版本，选择符合我们 Windows 64 位版本下载。

安装 Anaconda3

安装过程通常只需点击下一步。针对 C 盘空间较小的情况，在选择安装盘时，建议选择 All Users 并更改到其他盘符。

配置环境变量

回到刚才删除 Python 环境变量的 Path 界面，将 Anaconda3 的安装地址添加进去。

检查安装成功与否

配置完环境变量后，重启电脑以确保生效。

按 Win + R，输入 cmd 确定进入命令行提示框，输入：

conda --version

此时能看到 conda 的版本号。

接入我们输入 python 进入 Python 交互环境：

python

同样能看到 Python 的版本号。可以通过 Ctrl+Z 再加 Enter 或者输入 exit() 来退出环境。

更换 Conda 源

官方源在国外，下载缓慢且不稳定。建议更换成国内镜像。

首先通过系统左下角搜索'Anaconda'，选择'Anaconda Powershell Prompt'点击进去。
执行以下命令生成 .condarc 文件：

conda config --set show_channel_urls yes

在用户目录下找到 .condarc 文件打开，修改为以下内容：

channels:
  - defaults
show_channel_urls: true

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

conda create --name llm python=3.11.5

conda info --envs

conda activate llm

git clone https://www.modelscope.cn/qwen/Qwen1.5-0.5B-Chat.git

conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia

conda install conda-forge::transformers

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

# Now you do not need to add "trust_remote_code=True"
model = AutoModelForCausalLM.from_pretrained(
    "Qwen1.5-0.5B-Chat",  # 修改大模型位置
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen1.5-0.5B-Chat") # 修改大模型位置

# Instead of using model.chat(), we directly use model.generate()
# But you need to use tokenizer.apply_chat_template() to format your inputs as shown below
# 改成中文提问
prompt = "给我简单介绍一下大型语言模型。"
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

# Directly use generate() and tokenizer.decode() to get the output.
# Use `max_new_tokens` to control the maximum output length.
generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

# 打印一下助手回复的内容
print(response)

python qwen.py

conda install conda-forge::accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

device = "cuda"  # the device to load the model onto

# Now you do not need to add "trust_remote_code=True"
model = AutoModelForCausalLM.from_pretrained(
    "Qwen1.5-0.5B-Chat",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen1.5-0.5B-Chat")

# Instead of using model.chat(), we directly use model.generate()
# But you need to use tokenizer.apply_chat_template() to format your inputs as shown below
# 改成中文提问
prompt = "给我简单介绍一下大型语言模型。"
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

# Directly use generate() and tokenizer.decode() to get the output.
# Use `max_new_tokens` to control the maximum output length.
streamer = TextIteratorStreamer(
    tokenizer, skip_prompt=True, skip_special_tokens=True)
generation_kwargs = dict(model_inputs, streamer=streamer, max_new_tokens=512)
thread = Thread(target=model.generate, kwargs=generation_kwargs)

thread.start()
generated_text = ""
for new_text in streamer:
    generated_text += new_text
    print(generated_text)

conda install fastapi uvicorn

import uvicorn
from fastapi import FastAPI
from fastapi.middleware.cors import CORSMiddleware
from argparse import ArgumentParser

app = FastAPI()

# 支持 CORS
app.add_middleware(
    CORSMiddleware,
    allow_origins=['*'],
    allow_credentials=True,
    allow_methods=['*'],
    allow_headers=['*'],
)

@app.get("/")
async def index():
    return {"message": "Hello World"}

def _get_args():
    parser = ArgumentParser()

    parser.add_argument('--server-port',
                        type=int,
                        default=8000,
                        help='Demo server port.')
    parser.add_argument('--server-name',
                        type=str,
                        default='127.0.0.1',
                        help='Demo server name. Default: 127.0.0.1, which is only visible from the local computer.'
                        ' If you want other computers to access your server, use 0.0.0.0 instead.',
                        )

    args = parser.parse_args()
    return args

if __name__ == '__main__':
    args = _get_args()

    uvicorn.run(app, host=args.server_name, port=args.server_port, workers=1)

python web.py

from contextlib import asynccontextmanager
import torch
import uvicorn
import time
from transformers import AutoModelForCausalLM, AutoTokenizer
from fastapi import FastAPI, HTTPException
from fastapi.middleware.cors import CORSMiddleware
from argparse import ArgumentParser
from typing import List, Literal, Optional, Union
from pydantic import BaseModel, Field

@asynccontextmanager
async def lifespan(app: FastAPI):  # collects GPU memory
    yield
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()

app = FastAPI(lifespan=lifespan)

# 支持 CORS
app.add_middleware(
    CORSMiddleware,
    allow_origins=['*'],
    allow_credentials=True,
    allow_methods=['*'],
    allow_headers=['*'],
)

class ChatMessage(BaseModel):
    role: Literal['user', 'assistant', 'system']
    content: Optional[str]

class DeltaMessage(BaseModel):
    role: Optional[Literal['user', 'assistant', 'system']] = None
    content: Optional[str] = None

class ChatCompletionRequest(BaseModel):
    model: str
    messages: List[ChatMessage]
    stream: Optional[bool] = False

class ChatCompletionResponseChoice(BaseModel):
    index: int
    message: ChatMessage
    finish_reason: Literal['stop', 'length']

class ChatCompletionResponseStreamChoice(BaseModel):
    index: int
    delta: DeltaMessage
    finish_reason: Optional[Literal['stop', 'length']]

class ChatCompletionResponse(BaseModel):
    model: str
    object: Literal['chat.completion', 'chat.completion.chunk']
    choices: List[Union[ChatCompletionResponseChoice,
                        ChatCompletionResponseStreamChoice]]
    created: Optional[int] = Field(default_factory=lambda: int(time.time()))

@app.get("/")
async def index():
    return {"message": "Hello World"}

@app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
async def create_chat_completion(request: ChatCompletionRequest):
    global model, tokenizer

    # 简单的错误校验
    if request.messages[-1].role != "user":
        raise HTTPException(status_code=400, detail="Invalid request")

    text = tokenizer.apply_chat_template(
        request.messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

    # Directly use generate() and tokenizer.decode() to get the output.
    # Use `max_new_tokens` to control the maximum output length.
    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=512
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    response = tokenizer.batch_decode(
        generated_ids, skip_special_tokens=True)[0]

    choice_data = ChatCompletionResponseChoice(
        index=0,
        message=ChatMessage(role="assistant", content=response),
        finish_reason="stop"
    )

    return ChatCompletionResponse(model=request.model, choices=[choice_data], object="chat.completion")

def _get_args():
    parser = ArgumentParser()

    parser.add_argument(
        '-c',
        '--checkpoint-path',
        type=str,
        default='Qwen1.5-0.5B-Chat',
        help='Checkpoint name or path, default to %(default)r',
    )

    parser.add_argument('--server-port',
                        type=int,
                        default=8000,
                        help='Demo server port.')
    parser.add_argument('--server-name',
                        type=str,
                        default='127.0.0.1',
                        help='Demo server name. Default: 127.0.0.1, which is only visible from the local computer.'
                        ' If you want other computers to access your server, use 0.0.0.0 instead.',
                        )

    args = parser.parse_args()
    return args

if __name__ == '__main__':
    args = _get_args()

    # Now you do not need to add "trust_remote_code=True"
    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        torch_dtype="auto",
        device_map="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained(args.checkpoint_path)

    uvicorn.run(app, host=args.server_name, port=args.server_port, workers=1)

pip install sse_starlette

from contextlib import asynccontextmanager
from threading import Thread
import torch
import uvicorn
import time
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, BatchEncoding
from fastapi import FastAPI, HTTPException
from fastapi.middleware.cors import CORSMiddleware
from argparse import ArgumentParser
from typing import List, Literal, Optional, Union
from pydantic import BaseModel, Field
from sse_starlette.sse import EventSourceResponse

@asynccontextmanager
async def lifespan(app: FastAPI):  # collects GPU memory
    yield
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()

app = FastAPI(lifespan=lifespan)

# 支持 CORS
app.add_middleware(
    CORSMiddleware,
    allow_origins=['*'],
    allow_credentials=True,
    allow_methods=['*'],
    allow_headers=['*'],
)

class ChatMessage(BaseModel):
    role: Literal['user', 'assistant', 'system']
    content: Optional[str]

class DeltaMessage(BaseModel):
    role: Optional[Literal['user', 'assistant', 'system']] = None
    content: Optional[str] = None

class ChatCompletionRequest(BaseModel):
    model: str
    messages: List[ChatMessage]
    stream: Optional[bool] = False

class ChatCompletionResponseChoice(BaseModel):
    index: int
    message: ChatMessage
    finish_reason: Literal['stop', 'length']

class ChatCompletionResponseStreamChoice(BaseModel):
    index: int
    delta: DeltaMessage
    finish_reason: Optional[Literal['stop', 'length']]

class ChatCompletionResponse(BaseModel):
    model: str
    object: Literal['chat.completion', 'chat.completion.chunk']
    choices: List[Union[ChatCompletionResponseChoice,
                        ChatCompletionResponseStreamChoice]]
    created: Optional[int] = Field(default_factory=lambda: int(time.time()))

@app.get("/")
async def index():
    return {"message": "Hello World"}

@app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
async def create_chat_completion(request: ChatCompletionRequest):
    global model, tokenizer

    # 简单的错误校验
    if request.messages[-1].role != "user":
        raise HTTPException(status_code=400, detail="Invalid request")

    text = tokenizer.apply_chat_template(
        request.messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

    if request.stream:
        generate = predict(model_inputs, request.model)
        return EventSourceResponse(generate, media_type="text/event-stream")

    # Directly use generate() and tokenizer.decode() to get the output.
    # Use `max_new_tokens` to control the maximum output length.
    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=512
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    response = tokenizer.batch_decode(
        generated_ids, skip_special_tokens=True)[0]

    choice_data = ChatCompletionResponseChoice(
        index=0,
        message=ChatMessage(role="assistant", content=response),
        finish_reason="stop"
    )

    return ChatCompletionResponse(model=request.model, choices=[choice_data], object="chat.completion")

async def predict(model_inputs: BatchEncoding,  model_id: str):
    global model, tokenizer

    streamer = TextIteratorStreamer(
        tokenizer, skip_prompt=True, skip_special_tokens=True)
    generation_kwargs = dict(
        model_inputs, streamer=streamer, max_new_tokens=512)
    thread = Thread(target=model.generate, kwargs=generation_kwargs)

    choice_data = ChatCompletionResponseStreamChoice(
        index=0,
        delta=DeltaMessage(role="assistant"),
        finish_reason=None
    )
    chunk = ChatCompletionResponse(model=model_id, choices=[
                                   choice_data], object="chat.completion.chunk")
    yield "{}".format(chunk.model_dump_json(exclude_unset=True))

    thread.start()
    for new_text in streamer:
        choice_data = ChatCompletionResponseStreamChoice(
            index=0,
            delta=DeltaMessage(content=new_text),
            finish_reason=None
        )

        chunk = ChatCompletionResponse(model=model_id, choices=[
                                       choice_data], object="chat.completion.chunk")
        yield "{}".format(chunk.model_dump_json(exclude_unset=True))

    choice_data = ChatCompletionResponseStreamChoice(
        index=0,
        delta=DeltaMessage(),
        finish_reason="stop"
    )
    chunk = ChatCompletionResponse(model=model_id, choices=[
                                   choice_data], object="chat.completion.chunk")
    yield "{}".format(chunk.model_dump_json(exclude_unset=True))
    yield '[DONE]'

def _get_args():
    parser = ArgumentParser()

    parser.add_argument(
        '-c',
        '--checkpoint-path',
        type=str,
        default='Qwen1.5-0.5B-Chat',
        help='Checkpoint name or path, default to %(default)r',
    )

    parser.add_argument('--server-port',
                        type=int,
                        default=8000,
                        help='Demo server port.')
    parser.add_argument('--server-name',
                        type=str,
                        default='127.0.0.1',
                        help='Demo server name. Default: 127.0.0.1, which is only visible from the local computer.'
                        ' If you want other computers to access your server, use 0.0.0.0 instead.',
                        )

    args = parser.parse_args()
    return args

if __name__ == '__main__':
    args = _get_args()

    # Now you do not need to add "trust_remote_code=True"
    model = AutoModelForCausalLM.from_pretrained(
        args.checkpoint_path,
        torch_dtype="auto",
        device_map="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained(args.checkpoint_path)

    uvicorn.run(app, host=args.server_name, port=args.server_port, workers=1)

Windows 平台 Qwen1.5 大模型部署指南

Windows 平台 Qwen1.5 大模型部署指南

前置要求

GPU 驱动升级

安装 Anaconda

删除原有 Python

下载 Anaconda3

安装 Anaconda3

配置环境变量

检查安装成功与否

更换 Conda 源

更多推荐文章

相关免费在线工具

创建虚拟环境

部署大模型

下载大模型

安装依赖

安装 PyTorch

安装 Transformers

配置 VSCode

下载安装

安装拓展

引入 Conda 环境

尝试跑 Demo

部署为 API

快速启动

接入大模型测试

增加流式支持

常见问题与优化

更多推荐文章

相关免费在线工具

Windows 平台 Qwen1.5 大模型部署指南

Windows 平台 Qwen1.5 大模型部署指南

前置要求

GPU 驱动升级

安装 Anaconda

删除原有 Python

下载 Anaconda3

安装 Anaconda3

配置环境变量

检查安装成功与否

更换 Conda 源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

创建虚拟环境

部署大模型

下载大模型

安装依赖

安装 PyTorch

安装 Transformers

配置 VSCode

下载安装

安装拓展

引入 Conda 环境

尝试跑 Demo

部署为 API

快速启动

接入大模型测试

增加流式支持

常见问题与优化

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具