Windows 环境 llama.cpp 编译与 Qwen 模型本地部署 | 极客日志

PythonAI算法

Windows 环境 llama.cpp 编译与 Qwen 模型本地部署

介绍在 Windows 10/11 环境下编译 llama.cpp 并部署 Qwen 模型。步骤包括克隆代码、配置 CMake 编译（支持 CPU/GPU）、通过 ModelScope 下载 GGUF 格式模型、启动本地 API 服务，并提供 Python 脚本测试基础调用、多轮对话及工具功能。

佛系玩家发布于 2026/4/5更新于 2026/5/2428 浏览

本地轻量化部署因低延迟、高隐私性、无需依赖云端算力等优势，成为开发者热门需求。本文聚焦 Windows 10/11（64 位）环境，详解 llama.cpp 编译流程及 Qwen 模型本地部署。

1. 克隆代码

打开管理员权限的 PowerShell/CMD，执行以下命令：

git clone https://github.com/ggml-org/llama.cpp
mkdir build
cd build

2. 编译配置

仅 CPU 支持或启用 GPU 加速（需安装 CUDA Toolkit）。

CPU 模式：

cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CURL=OFF
cmake --build . --config Release

GPU 模式：

cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CUDA=ON
cmake --build . --config Release

3. 下载模型

使用 ModelScope 下载 GGUF 格式的 Qwen 模型（以 7B 为例）。

pip install modelscope
modelscope download --model Xorbits/Qwen-7B-Chat-GGUF

下载后保存位置通常为 \modelscope\hub\models\Xorbits。

4. 启动服务

运行模型启动 API 服务，默认监听 8080 端口。

# CPU 版
chcp 65001
llama-cli.exe -m qwen.gguf -i -c 4096

# GPU 加速版 (Server)
llama-server.exe -m qwen-7b-chat.Q4_0.gguf -c 4096 --port 8080 --host 127.0.0.1 --n-gpu-layers -1

5. 测试调用

服务启动后，可通过 curl 测试。

curl http://localhost:8080/completion -H "Content-Type: application/json" -d '{ "prompt": "你好", "temperature": 0.7, "max_tokens": 512 }'

6. Python 脚本调用

基础非流式调用

import requests
import json

url = "http://localhost:8080/completion"
headers = {"Content-Type": "application/json"}
data = {
    "model": "qwen.gguf",
    "prompt": ,
    : ,
    : ,
    : ,
    : []
}

:
    response = requests.post(url, headers=headers, data=json.dumps(data), timeout=)
    response.raise_for_status()
    result = response.json()
    ()
    (result[])
 Exception  e:
    ()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import requests
import json

chat_history = []
url = "http://localhost:8080/chat/completions"
headers = {"Content-Type": "application/json"}

def chat_with_model(prompt):
    chat_history.append({"role": "user", "content": prompt})
    data = {
        "model": "qwen.gguf",
        "messages": chat_history,
        "temperature": 0.7,
        "max_tokens": 512
    }
    try:
        response = requests.post(url, headers=headers, data=json.dumps(data), timeout=60)
        response.raise_for_status()
        result = response.json()
        answer = result["choices"][0]["message"]["content"]
        chat_history.append({"role": "assistant", "content": answer})
        return answer
    except Exception as e:
        return f"调用失败：{e}"

print("开始多轮对话（输入'退出'结束）：")
while True:
    user_input = input("你：")
    if user_input == "退出":
        break
    answer = chat_with_model(user_input)
    print(f"助手：{answer}\n")

import requests
import json
import re
from datetime import datetime

tool_registry = {
    "get_current_time": {
        "function": lambda: f"当前时间为：{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}",
        "description": "获取当前的本地时间，无需参数",
        "parameters": {}
    },
    "calculate_add": {
        "function": lambda a, b: f"{a} + {b} = {a + b}",
        "description": "计算两个数字的加法",
        "parameters": {
            "a": {"type": "float", "required": True},
            "b": {"type": "float", "required": True}
        }
    }
}

chat_history = [{"role": "system", "content": "你是一个有帮助的助手，可以调用工具辅助回答。"}]
url = "http://localhost:8080/chat/completions"
headers = {"Content-Type": "application/json"}

def clean_pad_content(content):
    return re.sub(r'\[PAD\d+\]', '', content).strip()

def parse_tool_call(content):
    try:
        json_match = re.search(r'\{[\s\S]*\}', content)
        if not json_match:
            return None
        tool_call = json.loads(json_match.group())
        if "name" in tool_call and "parameters" in tool_call:
            return tool_call
    except Exception:
        pass
    return None

def execute_tool(tool_call):
    tool_name = tool_call["name"]
    parameters = tool_call.get("parameters", {})
    if tool_name not in tool_registry:
        return f"错误：不存在名为 {tool_name} 的工具"
    tool_info = tool_registry[tool_name]
    try:
        result = tool_info["function"](**parameters)
        return f"工具调用成功：{result}"
    except Exception as e:
        return f"错误：执行失败 - {str(e)}"

def chat_with_model(prompt):
    global chat_history
    chat_history.append({"role": "user", "content": prompt})
    data = {
        "model": "qwen.gguf",
        "messages": chat_history,
        "temperature": 0.7,
        "max_tokens": 512,
        "stream": False,
        "stop": ["[PAD"]
    }
    try:
        response = requests.post(url, headers=headers, data=json.dumps(data), timeout=60)
        response.raise_for_status()
        result = response.json()
        if "choices" in result and len(result["choices"]) > 0:
            raw_answer = result["choices"][0]["message"]["content"]
            clean_answer = clean_pad_content(raw_answer)
            tool_call = parse_tool_call(clean_answer)
            if tool_call:
                tool_result = execute_tool(tool_call)
                chat_history.append({"role": "assistant", "content": f"工具调用结果：{tool_result}"})
                second_response = requests.post(url, headers=headers, data=json.dumps(data), timeout=60)
                second_result = second_response.json()
                final_answer = clean_pad_content(second_result["choices"][0]["message"]["content"])
                chat_history.append({"role": "assistant", "content": final_answer})
                return final_answer
            else:
                chat_history.append({"role": "assistant", "content": clean_answer})
                return clean_answer
    except Exception as e:
        return f"调用失败：{str(e)}"

if __name__ == "__main__":
    print("开始多轮对话（输入'退出'结束）：")
    while True:
        user_input = input("你：")
        if user_input.strip() == "退出":
            break
        if not user_input.strip():
            continue
        answer = chat_with_model(user_input)
        print(f"助手：{answer}\n")

Windows 环境 llama.cpp 编译与 Qwen 模型本地部署

1. 克隆代码

2. 编译配置

3. 下载模型

4. 启动服务

5. 测试调用

6. Python 脚本调用

基础非流式调用

更多推荐文章

相关免费在线工具

多轮对话示例

工具调用测试

更多推荐文章

相关免费在线工具

Windows 环境 llama.cpp 编译与 Qwen 模型本地部署

1. 克隆代码

2. 编译配置

3. 下载模型

4. 启动服务

5. 测试调用

6. Python 脚本调用

基础非流式调用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

多轮对话示例

工具调用测试

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具