llama.cpp 重大更新：内置 Web UI，本地大模型部署新方案 | 极客日志

C++AI算法

llama.cpp 重大更新：内置 Web UI，本地大模型部署新方案

llama.cpp 新增内置 Web UI，支持命令行安装与启动。实测 Qwen2.5-0.5B 模型推理速度 97t/s，优于 Ollama。功能涵盖多文件上下文、PDF/图片处理、数学渲染及移动端适配。可通过 pake 打包为 App。局限性在于仅支持浏览器访问、国内下载 HF 模型网络受限且暂不支持 MCP 与网络搜索。

战神发布于 2026/4/5更新于 2026/7/2160 浏览

llama.cpp 重大更新：内置 Web UI，本地大模型部署新方案

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI，我测试了安装部署和自行打包，很多地方确实比 Ollama 还有方便好用。

官方介绍，优势如下：

完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私

使用之前需要先安装 llama.cpp server

我还是喜欢命令行直接安装

# Winget (Windows)
winget install llama.cpp

# Homebrew (Mac and Linux)
brew install llama.cpp

然后启动 UI，也是命令行，为了快速测试，我调用 Qwen2.5 的 0.5b

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件来到不到 500Mb，我发现它默认选 q4_k_m

然后浏览器打开

随便问个问题，速度 97t/s

对比 Ollama 82t/s 的样子

其他功能也都挺实用

从磁盘或剪贴板添加多个文本文件到对话的上下文中

将一个或多个 PDF 附件添加到对话中。默认情况下，PDF 的内容将被转换为纯文本，不包括任何视觉元素。