llama.cpp 重大更新：内置 Web UI，性能对比 Ollama | 极客日志

C++AI算法

llama.cpp 重大更新：内置 Web UI，性能对比 Ollama

llama.cpp 新增官方 Web UI，支持 GGUF 模型。相比 Ollama，在部分场景下推理速度更快（如 Qwen2.5-0.5B 测试达 97t/s），且功能丰富（PDF 解析、图片输入、数学公式渲染）。安装可通过 winget/brew 完成，支持命令行启动。局限性在于国内下载模型网络不稳定，暂不支持网络搜索和 MCP。适合本地大模型部署需求。

NodeJser发布于 2026/4/6更新于 2026/5/2429 浏览

llama.cpp 重大更新

Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的，GGUF 模型格式也是由 llama.cpp 的作者所开发。

现在 llama.cpp 迎来重大更新，它也有了自己的 Web UI。官方介绍优势如下：

完全免费、开源且由社区驱动
在所有硬件上表现出色
高级上下文和前缀缓存
并行和远程用户支持
极其轻量级且内存高效
充满活力且富有创造力的社区
100% 隐私

安装与启动

使用之前需要先安装 llama.cpp server。

# Windows (Winget)
winget install llama.cpp

# Mac and Linux (Homebrew)
brew install llama.cpp

然后启动 UI，为了快速测试，调用 Qwen2.5 的 0.5B 版本：

llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033

量化后模型文件不到 500Mb，默认选 q4_k_m。

浏览器打开访问界面。

文章配图

随便问个问题，速度 97t/s。对比 Ollama 82t/s 的样子。

文章配图

功能特性

其他功能也都挺实用：

从磁盘或剪贴板添加多个文本文件到对话的上下文中。

文章配图

将一个或多个 PDF 附件添加到对话中。默认情况下，PDF 的内容将被转换为纯文本，不包括任何视觉元素。

文章配图

也可以在 AI 模型支持的情况下将 PDF 处理为图像。

文章配图

llama.cpp 重大更新：内置 Web UI，性能对比 Ollama

llama.cpp 重大更新

安装与启动

功能特性

更多推荐文章

相关免费在线工具

打包与应用

总结与局限

更多推荐文章

相关免费在线工具

llama.cpp 重大更新：内置 Web UI，性能对比 Ollama

llama.cpp 重大更新

安装与启动

功能特性

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

打包与应用

总结与局限

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具