使用 llama.cpp 本地部署大模型遇到的问题及解决方案 | 极客日志

编程语言AI算法

使用 llama.cpp 本地部署大模型遇到的问题及解决方案

记录了在本地使用 llama.cpp 部署大模型时遇到的常见问题及解决步骤。内容包括基础启动脚本编写、多分片 GGUF 模型合并方法、SillyTavern 调用 DeepSeek 模型时的推理预算错误处理（需调整参数并指定聊天模板），以及端口绑定失败的原因排查（检查端口占用）。提供了具体的批处理脚本和 Chat Template 修复方案。

CryptoLab发布于 2026/4/6更新于 2026/7/2571 浏览

使用 llama.cpp 本地部署大模型遇到的问题及解决方案

背景

在使用本地大模型工具时遇到显存占用及配置问题，遂记录相关解决步骤。

下载与基础启动

llama.cpp 下载地址： https://github.com/ggml-org/llama.cpp/releases

以下是 llama.cpp 调用模型的基本用法，将代码保存为 bat 文件，放在和 llama-server.exe 同目录下运行（确保模型位置选对，GPU_LAYERS 和 THREADS 根据机器能力）：

@echo off
setlocal
set "MODEL_PATH=F:\Models\Yakyu"
set "MODEL_FILE=Qwen3-235B-A22B-Instruct-2507-UD-Q8.gguf"
set CTX_SIZE=32768
set HOST=127.0.0.1
set PORT=1234
echo 正在启动 OpenAI 兼容 API 服务...
echo 模型：%MODEL_PATH%\%MODEL_FILE%
echo 端口：http://%HOST%:%PORT%
echo.
llama-server.exe ^
 -m "%MODEL_PATH%\%MODEL_FILE%" ^
 --ctx-size %CTX_SIZE% ^
 --host %HOST% ^
 --port %PORT%
echo.
echo 服务已停止。按任意键关闭窗口...
pause >nul

CMD 窗口显示'all slots are idle'说明模型加载完成，此时可以调用。如果出现乱码将 .bat 文件保存为 ANSI 编码格式即可。

注：通过 llama-server.exe -h 命令可以看到参数说明。默认打开了自动适应内存 (--fit on)，--gpu-layers、--n-cpu-moe 等参数不填也行，具体效果视设备情况而定。

参考文章：https://www.hardware-corner.net/gpt-oss-offloading-moe-layers/ 合理设置 --n-cpu-moe 的值能提速。

下面是可调参数多一点的版本：

@echo off
setlocal
set "MODEL_PATH=F:\Models\Yakyu"
set "MODEL_FILE=Qwen3-Next-80B-A3B-Instruct-abliterated-Q8_0.gguf"
set GPU_LAYERS=64
set THREADS=64
set CTX_SIZE=32768
set HOST=127.0.0.1
set PORT=1234
echo 正在启动 OpenAI 兼容 API 服务...
echo 模型：%MODEL_PATH%\%MODEL_FILE%
echo 端口：http://%HOST%:%PORT%
echo.
llama-server.exe ^
 -m "%MODEL_PATH%\%MODEL_FILE%" ^
 --gpu-layers %GPU_LAYERS% ^
 --threads %THREADS% ^
 --ctx-size %CTX_SIZE% ^
 --n-cpu-moe 10 ^
 --host %HOST% ^
 --port %PORT%
echo.
echo 服务已停止。按任意键关闭窗口...
pause >nul

合并分片模型

多个分片（shard）组成的 GGUF 分片模型用 llama-gguf-split 合并成一个才能用：

D:\Yakyu\llama-b7640-bin-win-cuda-12.4-x64\llama-gguf-split.exe --merge F:/Models/Yakyu/Qwen3-235B-A22B-Instruct-2507/Qwen3-235B-A22B-Instruct-2507-UD-Q8_K_XL-00001-of-00006.gguf F:/Models/Yakyu/Qwen3-235B-A22B-Instruct-2507-UD-Q8.gguf

打开 cmd 输入代码即可。

问题一：SillyTavern 调用时报错

错误信息：Chat Completion API Assistant response prefill is incompatible with enable_thinking

当加载的模型是 DeepSeek 时酒馆就会报这个错。

解决办法：

换用文本补全模式
bat 代码中增加 --reasoning-budget 0 来关闭思考

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

@echo off
setlocal
set "MODEL_PATH=F:\Models\Yakyu"
set "MODEL_FILE=DeepSeek-V3.1-Terminus-MXFP4_MOE.gguf"
set CTX_SIZE=32768
set HOST=127.0.0.1
set PORT=1234
echo 模型：%MODEL_PATH%\%MODEL_FILE%
echo 端口：http://%HOST%:%PORT%
echo.
llama-server.exe ^
 -m "%MODEL_PATH%\%MODEL_FILE%" ^
 --reasoning-budget 0 ^
 --chat-template-file "Unslothdeepseek-v3-chat-template.jinja" ^
 --ctx-size %CTX_SIZE% ^
 --host %HOST% ^
 --port %PORT%
echo.
echo 服务已停止。按任意键关闭窗口...
pause >nul

{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% if enable_thinking is defined and enable_thinking is false %}{% set thinking = false %}{% elif enable_thinking is defined and enable_thinking is true %}{% set thinking = true %}{% elif not thinking is defined %}{% set thinking = false %}{% endif %}{% set ns = namespace(is_first=false, is_tool=false,, is_first_sp=true, is_last_user=false) %}{%- for message in messages %}{%- if message['role'] == 'system' %}{%- if ns.is_first_sp %}{% set ns.system_prompt = ns.system_prompt + message['content'] %}{% set ns.is_first_sp = false %}{%- else %}{% set ns.system_prompt = ns.system_prompt + '\n\n' + message['content'] %}{%- endif %}{%- endif %}{%- endfor %}{{ bos_token }}{{ ns.system_prompt }}{%- for message in messages %}{%- if message['role'] == 'user' %}{%- set ns.is_tool = false -%}{%- set ns.is_first = false -%}{%- set ns.is_last_user = true -%}{{'<｜User｜>' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['tool_calls'] is defined and message['tool_calls'] is not none %}{%- if ns.is_last_user %}{{'<｜Assistant｜></think>'}}{%- endif %}{%- set ns.is_last_user = false -%}{%- set ns.is_first = false %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls'] %}{%- if not ns.is_first %}{%- if message['content'] is none %}{{'<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>'+ tool['function']['name'] + '<｜tool▁sep｜>' + (tool['function']['arguments'] if tool['function']['arguments'] is string else tool['function']['arguments'] | tojson) + '<｜tool▁call▁end｜>'}}{%- else %}{{message['content'] + '<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>' + tool['function']['name'] + '<｜tool▁sep｜>' + (tool['function']['arguments'] if tool['function']['arguments'] is string else tool['function']['arguments'] | tojson) + '<｜tool▁call▁end｜>'}}{%- endif %}{%- set ns.is_first = true -%}{%- else %}{{'<｜tool▁call▁begin｜>'+ tool['function']['name'] + '<｜tool▁sep｜>' + (tool['function']['arguments'] if tool['function']['arguments'] is string else tool['function']['arguments'] | tojson) + '<｜tool▁call▁end｜>'}}{%- endif %}{%- endfor %}{{'<｜tool▁calls▁end｜><｜end▁of▁sentence｜>'}}{%- endif %}{%- if message['role'] == 'assistant' and (message['tool_calls'] is not defined or message['tool_calls'] is none) %}{%- if ns.is_last_user %}{{'<｜Assistant｜>'}}{%- if message['prefix'] is defined and message['prefix'] and thinking %}{{''}}{%- endif %}{%- endif %}{%- set ns.is_last_user = false -%}{%- if ns.is_tool %}{{message['content'] + '<｜end▁of▁sentence｜>'}}{%- set ns.is_tool = false -%}{%- else %}{%- set content = message['content'] -%}{%- if '</think>' in content %}{%- set splitted = content.split('</think>') -%}{%- set content = splitted[1:] | join('</think>') -%}{%- endif %}{{content + '<｜end▁of▁sentence｜>'}}{%- endif %}{%- endif %}{%- if message['role'] == 'tool' %}{%- set ns.is_last_user = false -%}{%- set ns.is_tool = true -%}{{'<｜tool▁output▁begin｜>' + message['content'] + '<｜tool▁output▁end｜>'}}{%- endif %}{%- endfor -%}{%- if add_generation_prompt and ns.is_last_user and not ns.is_tool %}{{'<｜Assistant｜>'}}{%- if not thinking %}{{'</think>'}}{%- else %}{{'<think>'}}{%- endif %}{% endif %}

使用 llama.cpp 本地部署大模型遇到的问题及解决方案

使用 llama.cpp 本地部署大模型遇到的问题及解决方案

背景

下载与基础启动

合并分片模型

问题一：SillyTavern 调用时报错

更多推荐文章

相关免费在线工具

问题二：llama-server 端口绑定失败

更多推荐文章

相关免费在线工具

使用 llama.cpp 本地部署大模型遇到的问题及解决方案

使用 llama.cpp 本地部署大模型遇到的问题及解决方案

背景

下载与基础启动

合并分片模型

问题一：SillyTavern 调用时报错

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

问题二：llama-server 端口绑定失败

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具