llama.cpp 重大更新：自带 Web UI，性能表现优异，本地大模型部署新方案 | 极客日志

C++AI算法

llama.cpp 重大更新：自带 Web UI，性能表现优异，本地大模型部署新方案

llama.cpp 迎来重大更新，新增原生 Web UI，支持本地大模型部署。相比 Ollama，其在部分场景下性能更优（如 97t/s vs 82t/s），具备轻量级、隐私保护等优势。支持多种模型加载、PDF 解析、图像输入及数学公式渲染。可通过命令行安装，或使用 pake 工具打包为桌面应用。主要局限在于依赖 HuggingFace 下载模型，且暂不支持网络搜索与 MCP 协议。适合追求高性能与隐私的本地化部署用户。

极客工坊发布于 2026/4/6更新于 2026/5/2735 浏览

llama.cpp 重大更新：自带 Web UI，性能表现优异，本地大模型部署新方案

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI，我测试了安装部署和自行打包，很多地方确实比 Ollama 还有方便好用。

官方介绍，优势如下：

完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私

使用之前需要先安装 llama.cpp server。

推荐使用命令行直接安装：

# Winget (Windows)
winget install llama.cpp
# Homebrew (Mac and Linux)
brew install llama.cpp

然后启动 UI，也是命令行，为了快速测试，调用 Qwen2.5 的 0.5B 模型：

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件不到 500Mb，默认选 q4_k_m。浏览器打开即可访问。

随便问个问题，速度 97t/s，对比 Ollama 82t/s 的表现。

其他功能也都挺实用：

从磁盘或剪贴板添加多个文本文件到对话的上下文中
将一个或多个 PDF 附件添加到对话中。默认情况下，PDF 的内容将被转换为纯文本，不包括任何视觉元素
在 AI 模型支持的情况下将 PDF 处理为图像
当所选的 AI 模型具有视觉输入能力时，可以在对话中插入图片
图片可以与文本上下文一起插入
可以渲染数学表达式
使用 Import/Export 选项直接管理私人对话
新的 WebUI 对移动设备友好

其他功能还有，比如：

支持通过 URL 参数传递输入
根据之前的讨论点编辑或重新生成消息以创建分支
同时运行多个聊天对话
并行图像处理
支持嵌入式渲染生成的 HTML/JS 代码
指定一个自定义的 JSON 模式以约束生成的输出到特定格式

目前硬伤是只能浏览器访问，想打包成 app 也可以，使用的是 tw93 开发的 pake，一行命令即可，本地服务也可以打包成 app。

如此轻量舒服的应用，期待支持其他模型的接入。

总结来看，比之前想要挑战 ollama 的 Shimmy 要好很多，但是 Ollama 玩了这么久也不是吃素的：

Ollama 有更加方便的 app，随时切换本地模型甚是方便
Ollama 还有免费云模型可以调用呢
网络问题，它目前只能支持 HF 下载模型，国内用户不友好
网络搜索和 MCP 也不支持