玩客云边缘AI模型本地搭建部署 llama.cpp qwen

优质文章学习记录

10 Apr 2026 — 4 min read

安装基础依赖

打开终端，输入：

# 更新系统 sudo apt update && sudo apt upgrade -y # 安装编译工具 sudo apt install git build-essential cmake python3 python3-pip -y

安装系统包版本 numpy

sudo apt update sudo apt install python3-numpy -y

这一步保证你可以编译 llama.cpp 和运行 Python 脚本。

下载并编译 llama.cpp

install_llama.sh

#!/bin/bash set -e # 有错误直接退出，别默默翻车 REPO_URL="https://github.com/ggerganov/llama.cpp" DIR_NAME="llama.cpp" BUILD_DIR="build" echo "== llama.cpp 一键构建脚本 ==" # 1. 检查源码是否存在 if [ ! -d "$DIR_NAME" ]; then echo "[INFO] 未检测到 llama.cpp，开始下载..." export http_proxy=http://192.168.1.131:7897 export https_proxy=http://192.168.1.131:7897 git clone "$REPO_URL" echo "[OK] 下载完成" else echo "[OK] 已存在 llama.cpp，跳过下载" fi cd "$DIR_NAME" # 2. 检查 build 目录 if [ ! -d "$BUILD_DIR" ]; then echo "[INFO] 创建 build 目录" mkdir "$BUILD_DIR" else echo "[OK] build 目录已存在" fi cd "$BUILD_DIR" # 3. CMake + 编译 echo "[INFO] 开始 CMake 配置" cmake -DCMAKE_BUILD_TYPE=Release .. echo "[INFO] 开始编译（make -j1）" make -j1 echo "== llama.cpp 编译完成 =="

-j1 限制单线程，避免 OOM

编译完成后生成可执行文件

测试：

 cd ~/llama.cpp/build/bin ./test-backend-ops

Testing 1 devices

Backend 1/1: CPU
Skipping CPU backend
1/1 backends passed
OK

设置 HTTP/HTTPS 代理（临时）网络不好时候

export http_proxy=http://192.168.1.131:7897 export https_proxy=http://192.168.1.131:7897

编译后生成的 main 可执行文件，就是推理程序。
llama.cpp 支持 ARM CPU，所以 S805 可以直接跑。

下载模型 https://huggingface.co/search/full-text?q=TinyLLM+%2F+GGUF 搜索关键词 TinyLLM / GGUF

进入模型目录：

cd ~ mkdir models cd /root/models

然后用 wget 直接：

wget --no-check-certificate --secure-protocol=TLSv1_2 https://huggingface.co/Qwen/Qwen2.5-Coder-0.5B-Instruct-GGUF/resolve/main/qwen2.5-coder-0.5b-instruct-q5_0.gguf

或者电脑下载后 scp拷贝过去

 scp qwen2.5-coder-0.5b-instruct-q5_0.gguf [email protected]:/root/models

一键下载脚本 dl.sh

 #!/bin/bash # 使用方法: ./dl.sh <下载链接> [保存文件名] # 示例: # ./dl.sh https://huggingface.co/Qwen/Qwen2.5-Coder-0.5B-Instruct-GGUF/resolve/main/qwen2.5-coder-0.5b-instruct-q5_0.gguf # 设置代理 export http_proxy=http://192.168.1.131:7897 export https_proxy=http://192.168.1.131:7897 URL="$1" FILENAME="$2" if [ -z "$URL" ]; then echo "请提供下载链接" exit 1 fi # 如果没有指定文件名，自动从 URL 提取 if [ -z "$FILENAME" ]; then FILENAME=$(basename "$URL") fi echo "开始下载: $URL" echo "保存为: $FILENAME" wget --no-check-certificate --secure-protocol=TLSv1_2 -c "$URL" -O "$FILENAME" --tries=5 --timeout=30 if [ $? -eq 0 ]; then echo "下载完成: $FILENAME" else echo "下载失败，请检查网络或代理设置" fi

运行

-m：模型文件路径
-p：输入提示（传感器数据或指令）
-n：生成 token 数量（这里 10 个就够）

root目录下

./llama.cpp/build/bin/llama-cli -m /root/models/qwen2.5-coder-0.5b-instruct-q5_0.gguf -p "hello" -n 500

效果

一键启动脚本 start.sh

 #!/bin/bash MODEL_FILE=${1:-"qwen2.5-coder-0.5b-instruct-q5_0.gguf"} MODEL_PATH="$HOME/models/$MODEL_FILE" if [ ! -f "$MODEL_PATH" ]; then echo "错误：模型文件 $MODEL_PATH 不存在！" exit 1 fi CTX_SIZE=1024 N_PREDICT=512 TEMP=0.3 THREADS=4 echo "开始加载模型：$MODEL_FILE" echo "参数：上下文=$CTX_SIZE，生成token数=$N_PREDICT，温度=$TEMP，线程数=$THREADS" "$HOME/llama.cpp/build/bin/llama-cli" \ -m "$MODEL_PATH" \ -c $CTX_SIZE \ -n $N_PREDICT \ --temp $TEMP \ --threads $THREADS \ --color auto

扩展

安装open webui

docker run -d \ --name open-webui \ -p 3000:8080 \ -e OPENAI_API_BASE_URL=http://192.168.1.191:8080/v1 \ -e OPENAI_API_KEY=sk-local \ --restart unless-stopped \ ghcr.io/open-webui/open-webui:main

运行服务端模式

/root/llama.cpp/build/bin/llama-server \ -m /root/models/qwen2.5-coder-0.5b-instruct-q8_0.gguf \ -c 2048 \ --host 0.0.0.0 \ --port 8080

测试服务端

curl http://127.0.0.1:8080/v1/models

响应：

{"models":[{"name":"qwen2.5-coder-0.5b-instruct-q8_0.gguf","model":"qwen2.5-coder-0.5b-instruct-q8_0.gguf","modified_at":"","size":"","digest":"","type":"model","description":"","tags":[""],"capabilities":["completion"],"parameters":"","details":{"parent_model":"","format":"gguf","family":"","families":[""],"parameter_size":"","quantization_level":""}}],"object":"list","data":[{"id":"qwen2.5-coder-0.5b-instruct-q8_0.gguf","object":"model","created":1769056357,"owned_by":"llamacpp","meta":{"vocab_type":2,"n_vocab":151936,"n_ctx_train":32768,"n_embd":896,"n_params":630167424,"size":669763072}}]}

API使用：chatbox里面导入

http://192.168.1.191:8080/v1

从安装到实战：Topaz Gigapixel AI 8.2.3汉化版完整使用指南（含模型迁移教程）

从零精通AI图像放大：Topaz Gigapixel AI 8.2.3深度实战与模型迁移全解析你是否曾面对一张珍贵的低分辨率老照片，渴望将其放大打印，却担心画质会变得模糊不堪？或者，作为一名电商设计师，需要将商品主图放大到巨幅广告尺寸，却苦于细节丢失、边缘锯齿？在数字内容创作日益精细化的今天，图像的分辨率往往直接决定了作品的最终呈现效果和商业价值。传统插值放大技术早已捉襟见肘，而基于深度学习的人工智能图像放大，正悄然改变着游戏规则。 Topaz Gigapixel AI 正是这一领域的佼佼者。它不仅仅是一个“放大”工具，更是一个能够理解图像内容、智能重建细节的“数字艺术家”。其核心在于利用经过海量图像训练的神经网络，在放大过程中主动“创造”出符合视觉逻辑的纹理和细节，而非简单粗暴地拉伸像素。对于摄影师、设计师、电商从业者、档案修复工作者乃至普通爱好者而言，掌握这样一款工具，意味着拥有了将有限像素转化为无限可能的钥匙。本文将带你深入Topaz Gigapixel AI 8.2.3的世界，不仅涵盖从软件获取、安装配置到汉化使用的完整流程，更将重点剖析其核心的AI模型机制，

2026年GitHub第一项目OpenClaw全攻略：手把手教你打造私人AI管家

"当你还在用微信机器人聊天，极客们早已让AI接管了整个数字生活" 🌟 导语：时间来到2026，如果你还没听过OpenClaw 当GitHub统计页面刷新的那一刻，整个技术圈沸腾了——OpenClaw（曾用名ClawdBot）以6.8万Star登顶年度第一，超越了Linux和React等传奇项目。这不是又一个聊天机器人，而是真正能"行动"的AI系统：它能整理你的文件、管理日程、分析数据，甚至为你预订机票。区别在于：普通AI只能"说"，而OpenClaw能"做"。今天，我将从零开始，带你安装这个改变生产力的工具，并分享那些让同行羡慕的高级玩法。不需要你是技术大牛，只要肯花30分钟，你也能拥有自己的"贾维斯"。 🔍 一、OpenClaw vs 普通AI：为什么它能颠覆工作流？你可能听过MCP和Skills这些概念，但它们到底意味着什么？

装了 OpenClaw 却不会用？这 20 个 Skills 让你的 AI 助手聪明

更多信息参考 https://zhuanlan.zhihu.com/p/2015223422641259927 有人问：在行者的手中， OpenClaw 能自动抓热点、写文章、发朋友圈，我怎么就只能陪聊？还有有人问："装是装好了，但除了让它写周报，查天气，还能干啥？" 答案很简单：你装的是空壳子，别人装的是完全体。就像你买了台顶配电脑，但里面啥软件都没装。能开机，但干不了活。真正让它变强的，是 Skills。今天这篇，我把自己这两个月玩过的 20 个精选 Skills 全部掏出来。收藏好，照着装，你的 OpenClaw 也能变聪明。一、Skills 到底是个啥？在 OpenClaw 里，助手通过Skills（技能）

大模型工程化vs传统AI工程：核心差异解析

大模型工程化vs传统AI工程：核心差异解析 📝 本章学习目标：本章是基础入门部分，帮助读者建立大模型工程化的初步认知。通过本章学习，你将全面掌握"大模型工程化vs传统AI工程：核心差异解析"这一核心主题。一、引言：为什么这个话题如此重要在大模型技术快速发展的今天，大模型工程化vs传统AI工程：核心差异解析已经成为每个AI工程师必须掌握的核心技能。大模型的工程化落地不仅需要理解模型原理，更需要掌握系统化的部署、优化和运维能力。 1.1 背景与意义 💡 核心认知：大模型工程化是将研究模型转化为生产级服务的关键环节。一个优秀的模型如果缺乏良好的工程化支持，将难以在实际场景中发挥价值。从GPT-3到GPT-4，从LLaMA到Qwen，大模型参数量从数十亿增长到数千亿。这种规模的增长带来了巨大的工程挑战：如何高效部署？如何优化推理速度？如何控制成本？这些问题都需要系统化的工程化能力来解决。 1.2 本章结构概览为了帮助读者系统性地掌握本章内容，我将从以下几个维度展开： 📊 概念解析 → 技术原理 → 实现方法 → 实践案例 → 最佳实践 → 总结展望二、