Android 设备使用 Termux 安装 llama.cpp 并启动 WebUI | 极客日志

Shell / BashAI算法

Android 设备使用 Termux 安装 llama.cpp 并启动 WebUI

介绍如何在 Android 设备的 Termux 环境中运行 llama.cpp。步骤包括通过 apt 安装 llama-cpp 包，下载量化后的 Qwen3.5-GGUF 模型，使用 llama-cli 进行命令行交互测试，最后启动 llama-server 提供本地 WebUI 服务供浏览器访问推理。

蓝绿部署发布于 2026/4/5更新于 2026/5/2437 浏览

在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

llama.cpp 没有发布官方 aarch64 的二进制，需要自己编译，好在 Termux 已经有编译好的包可用。

1. 安装 llama-cpp 软件

在 Termux 中执行以下命令安装：

apt update
apt install llama-cpp

如果找不到这个包，请先执行 apt update 更新目录。为简单起见，先不安装 llama-cpp-backend-vulkan，用 CPU 来执行 llama.cpp。

2. 下载模型

下载 Qwen3.5-0.8B-UD-Q4_K_XL.gguf 模型文件：

mkdir model
cd model
curl -LO https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf

该模型是 Q4 量化的，比原版减少了一半空间，而能力差不多。

3. 命令行交互测试

使用 llama-cli 加载模型并进行对话：

llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384 -cnv

加载成功后，可以输入问题进行交互。由于模型较小，智能比较弱，回答可能不准确。

退出对话可使用 /exit 或 Ctrl+C。

4. 启动 WebUI 服务

利用 llama-server 内置的 Web UI 功能：

llama-server -m ./Qwen3.5-0.8B-UD-Q4_K_XL.gguf --jinja -c 0 --host 127.0.0.1 --port 8033

系统检测到 CPU 有 8 个线程，用了 7 个。服务端输出参数后等待连接。

在浏览器中输入 http://127.0.0.1:8033 即可访问。输出速度比命令行慢一些，大约 3t/s。

服务端日志显示请求处理过程及性能指标，如 prompt eval time 和 eval time。

Android 设备使用 Termux 安装 llama.cpp 并启动 WebUI

在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

1. 安装 llama-cpp 软件

2. 下载模型

3. 命令行交互测试

4. 启动 WebUI 服务

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

Android 设备使用 Termux 安装 llama.cpp 并启动 WebUI

在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI

1. 安装 llama-cpp 软件

2. 下载模型

3. 命令行交互测试

4. 启动 WebUI 服务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具