在 Android 设备上利用 Termux 安装 llama.cpp 并启动 WebUI
llama.cpp 没有发布官方 aarch64 的二进制,需要自己编译,好在 Termux 已经有编译好的包可用。
1. 安装 llama-cpp 软件
在 Termux 中执行以下命令安装:
apt update
apt install llama-cpp
如果找不到这个包,请先执行 apt update 更新目录。为简单起见,先不安装 llama-cpp-backend-vulkan,用 CPU 来执行 llama.cpp。
2. 下载模型
下载 Qwen3.5-0.8B-UD-Q4_K_XL.gguf 模型文件:
mkdir model
cd model
curl -LO https://hf-mirror.com/unsloth/Qwen3.5-0.8B-GGUF/resolve/main/Qwen3.5-0.8B-UD-Q4_K_XL.gguf
该模型是 Q4 量化的,比原版减少了一半空间,而能力差不多。
3. 命令行交互测试
使用 llama-cli 加载模型并进行对话:
llama-cli -m Qwen3.5-0.8B-UD-Q4_K_XL.gguf --ctx-size 16384 -cnv
加载成功后,可以输入问题进行交互。由于模型较小,智能比较弱,回答可能不准确。
退出对话可使用 /exit 或 Ctrl+C。
4. 启动 WebUI 服务
利用 llama-server 内置的 Web UI 功能:
llama-server -m ./Qwen3.5-0.8B-UD-Q4_K_XL.gguf --jinja -c 0 --host 127.0.0.1 --port 8033
系统检测到 CPU 有 8 个线程,用了 7 个。服务端输出参数后等待连接。
在浏览器中输入 http://127.0.0.1:8033 即可访问。输出速度比命令行慢一些,大约 3t/s。
服务端日志显示请求处理过程及性能指标,如 prompt eval time 和 eval time。

