PythonAI算法

LLM 代码实现：Qwen 模型下载与调用指南

综述由AI生成Qwen 大模型的本地化部署流程，涵盖环境配置、模型下载、基础调用及高级功能实现。内容包含基于 Transformers 库的代码示例，涉及设备映射管理、生成参数调优、多轮对话脚本编写以及流式输出处理。此外，还补充了常见问题排查方法和 FastAPI 部署方案，旨在帮助开发者快速搭建 Qwen 模型应用环境并进行二次开发。

菩提发布于 2025/2/7更新于 2026/5/1214 浏览

基本介绍

Qwen（通义千问）基础模型已经稳定训练了大规模高质量且多样化的数据，覆盖多语言（当前以中文和英文为主）。Qwen 目前提供多个版本，包括 1.8B、7B、14B、72B 等参数规模，同时还开源了 Qwen-VL、Qwen-Audio 两款多模态模型。作为业界领先的开源大模型之一，Qwen-72B 是少数开源的超大规模 Chat 版本模型，在推理能力上表现优异。

各模型特点及硬件需求如下：

1.8B/7B：适合个人电脑或单卡 GPU 运行，显存需求较低。
14B/72B：需要多卡 GPU 或高性能服务器，显存占用较大。

环境配置

前置依赖

确保系统已安装 Python 3.8 及以上版本，并配置好 CUDA 环境（若使用 GPU 加速）。

克隆项目

进入 Qwen 官方 GitHub 仓库拉取项目代码并安装依赖。

git clone https://github.com/QwenLM/Qwen.git
cd Qwen
pip install -r requirements.txt

建议创建虚拟环境以避免依赖冲突：

conda create -n qwen_env python=3.9
conda activate qwen_env
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

模型下载

考虑到算力限制，本示例使用 Qwen-1.8B-Chat（非基座模型）。模型下载主要有两种方式：HuggingFace 和魔搭社区（ModelScope）。

方式一：HuggingFace

国内网络可能不稳定，建议使用镜像站或代理。

# 安装 Git LFS
git lfs install
# 克隆模型仓库
git clone https://huggingface.co/Qwen/Qwen-1_8B-Chat

Python 代码下载：

from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen-1_8B-Chat', cache_dir='./model')

方式二：魔搭社区（ModelScope）

国内访问速度更快。

git lfs install
git clone https://www.modelscope.cn/qwen/Qwen-1_8B-Chat.git

Python 代码下载：

from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen-1_8B-Chat', cache_dir='./model')

模型调用

使用 transformers 库加载模型是最直接的方式，可验证环境配置是否正确。

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig

# 加载模型和 tokenizer
path = "./model/Qwen/Qwen-1_8B-Chat"
tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    path,
    device_map="auto",
    trust_remote_code=True
).eval()

# 配置生成参数
model.generation_config = GenerationConfig.from_pretrained(path, trust_remote_code=True)

# 对话测试
response, history = model.chat(tokenizer, "你好", history=None)
print(response)

from accelerate import infer_auto_device_map

device_map = infer_auto_device_map(model, max_memory={0: "10GiB", 1: "10GiB", "cpu": "30GiB"})
print(model.hf_device_map)

git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention && pip install .

model.generation_config = GenerationConfig.from_pretrained(
    path,
    temperature=0.8,      # 多样性：越高越随机
    top_k=5,              # 候选词数量
    repetition_penalty=1.2, # 抑制重复
    do_sample=True,       # 是否采样
    return_unused_kwargs=True
)

from transformers import AutoModelForCausalLM, AutoTokenizer
import os
import sys

class QwenChat:
    def __init__(self, model_path="./model/Qwen/Qwen-1_8B-Chat"):
        self.path = model_path
        print(f"正在加载模型：{model_path}")
        self.tokenizer = AutoTokenizer.from_pretrained(self.path, trust_remote_code=True)
        self.model = AutoModelForCausalLM.from_pretrained(
            self.path,
            device_map="auto",
            trust_remote_code=True
        ).eval()
        print("模型加载完成")

    def clear_screen(self):
        os.system('clear' if os.name != 'nt' else 'cls')
        return [], ""

    def chat_qwen(self, system_prompt="你是一位有用的助手"):
        history = []
        while True:
            try:
                prompt = input("user：")
                if prompt.lower() in ["clc", "exit", "quit"]:
                    if prompt.lower() == "clc":
                        history = []
                        print("历史记录已清空")
                        continue
                    else:
                        break
                
                response, history = self.model.chat(
                    self.tokenizer, 
                    prompt, 
                    history=history, 
                    system=system_prompt
                )
                print(f"assistant：\n{response}\n")
            except KeyboardInterrupt:
                print("\n程序中断")
                break
            except Exception as e:
                print(f"发生错误：{e}")

if __name__ == '__main__':
    # 示例：设定外婆的语气
    qwen = QwenChat()
    qwen.chat_qwen(system_prompt="请用外婆的语气和我说话，语气温柔亲切")

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "./model/Qwen/Qwen-1_8B-Chat"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True).eval()

input_text = "请介绍一下人工智能"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

for output in model.generate(**inputs, streamer=tokenizer.get_streamer(), max_new_tokens=100):
    print(tokenizer.decode(output, skip_special_tokens=True), end="", flush=True)

from fastapi import FastAPI
from pydantic import BaseModel
import uvicorn

class ChatRequest(BaseModel):
    message: str
    system_prompt: str = "你是一个智能助手"

app = FastAPI()

@app.post("/chat")
async def chat(req: ChatRequest):
    # 此处复用上述 QwenChat 类的实例
    response, _ = model.chat(tokenizer, req.message, history=[], system=req.system_prompt)
    return {"reply": response}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

LLM 代码实现：Qwen 模型下载与调用指南

基本介绍

环境配置

前置依赖

克隆项目

模型下载

方式一：HuggingFace

方式二：魔搭社区（ModelScope）

模型调用

LLM 代码实现：Qwen 模型下载与调用指南

基本介绍

环境配置

前置依赖

克隆项目

模型下载

方式一：HuggingFace

方式二：魔搭社区（ModelScope）

模型调用

更多推荐文章

相关免费在线工具

基础调用

设备映射（Device Map）

性能优化

生成参数配置

多轮对话脚本实现

流式输出（Streaming）

常见问题排查

部署为 API 服务

更多推荐文章

相关免费在线工具

LLM 代码实现：Qwen 模型下载与调用指南

基本介绍

环境配置

前置依赖

克隆项目

模型下载

方式一：HuggingFace

方式二：魔搭社区（ModelScope）

模型调用

LLM 代码实现：Qwen 模型下载与调用指南

基本介绍

环境配置

前置依赖

克隆项目

模型下载

方式一：HuggingFace

方式二：魔搭社区（ModelScope）

模型调用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

基础调用

设备映射（Device Map）

性能优化

生成参数配置

多轮对话脚本实现

流式输出（Streaming）

常见问题排查

部署为 API 服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具