玩客云 边缘AI模型 本地搭建部署 llama.cpp qwen

玩客云 边缘AI模型 本地搭建部署 llama.cpp qwen

安装基础依赖

打开终端,输入:

# 更新系统 sudo apt update && sudo apt upgrade -y # 安装编译工具 sudo apt install git build-essential cmake python3 python3-pip -y 

安装系统包版本 numpy

sudo apt update sudo apt install python3-numpy -y 
这一步保证你可以编译 llama.cpp 和运行 Python 脚本。

 下载并编译 llama.cpp

install_llama.sh

#!/bin/bash set -e # 有错误直接退出,别默默翻车 REPO_URL="https://github.com/ggerganov/llama.cpp" DIR_NAME="llama.cpp" BUILD_DIR="build" echo "== llama.cpp 一键构建脚本 ==" # 1. 检查源码是否存在 if [ ! -d "$DIR_NAME" ]; then echo "[INFO] 未检测到 llama.cpp,开始下载..." export http_proxy=http://192.168.1.131:7897 export https_proxy=http://192.168.1.131:7897 git clone "$REPO_URL" echo "[OK] 下载完成" else echo "[OK] 已存在 llama.cpp,跳过下载" fi cd "$DIR_NAME" # 2. 检查 build 目录 if [ ! -d "$BUILD_DIR" ]; then echo "[INFO] 创建 build 目录" mkdir "$BUILD_DIR" else echo "[OK] build 目录已存在" fi cd "$BUILD_DIR" # 3. CMake + 编译 echo "[INFO] 开始 CMake 配置" cmake -DCMAKE_BUILD_TYPE=Release .. echo "[INFO] 开始编译(make -j1)" make -j1 echo "== llama.cpp 编译完成 ==" 

-j1 限制单线程,避免 OOM

编译完成后生成  可执行文件

测试:

 cd ~/llama.cpp/build/bin ./test-backend-ops 

Testing 1 devices

Backend 1/1: CPU
  Skipping CPU backend
1/1 backends passed
OK

设置 HTTP/HTTPS 代理(临时)网络不好时候

export http_proxy=http://192.168.1.131:7897 export https_proxy=http://192.168.1.131:7897
  • 编译后生成的 main 可执行文件,就是推理程序。
  • llama.cpp 支持 ARM CPU,所以 S805 可以直接跑。

下载模型 https://huggingface.co/search/full-text?q=TinyLLM+%2F+GGUF 搜索关键词  TinyLLM / GGUF

进入模型目录:

cd ~ mkdir models cd /root/models

然后用 wget 直接:

wget --no-check-certificate --secure-protocol=TLSv1_2 https://huggingface.co/Qwen/Qwen2.5-Coder-0.5B-Instruct-GGUF/resolve/main/qwen2.5-coder-0.5b-instruct-q5_0.gguf

或者电脑下载后 scp拷贝过去

 scp qwen2.5-coder-0.5b-instruct-q5_0.gguf [email protected]:/root/models

一键下载脚本 dl.sh

 #!/bin/bash # 使用方法: ./dl.sh <下载链接> [保存文件名] # 示例: # ./dl.sh https://huggingface.co/Qwen/Qwen2.5-Coder-0.5B-Instruct-GGUF/resolve/main/qwen2.5-coder-0.5b-instruct-q5_0.gguf # 设置代理 export http_proxy=http://192.168.1.131:7897 export https_proxy=http://192.168.1.131:7897 URL="$1" FILENAME="$2" if [ -z "$URL" ]; then echo "请提供下载链接" exit 1 fi # 如果没有指定文件名,自动从 URL 提取 if [ -z "$FILENAME" ]; then FILENAME=$(basename "$URL") fi echo "开始下载: $URL" echo "保存为: $FILENAME" wget --no-check-certificate --secure-protocol=TLSv1_2 -c "$URL" -O "$FILENAME" --tries=5 --timeout=30 if [ $? -eq 0 ]; then echo "下载完成: $FILENAME" else echo "下载失败,请检查网络或代理设置" fi 

运行

  • -m:模型文件路径
  • -p:输入提示(传感器数据或指令)
  • -n:生成 token 数量(这里 10 个就够)

root目录下

./llama.cpp/build/bin/llama-cli -m /root/models/qwen2.5-coder-0.5b-instruct-q5_0.gguf -p "hello" -n 500 

效果

一键启动脚本 start.sh

 #!/bin/bash MODEL_FILE=${1:-"qwen2.5-coder-0.5b-instruct-q5_0.gguf"} MODEL_PATH="$HOME/models/$MODEL_FILE" if [ ! -f "$MODEL_PATH" ]; then echo "错误:模型文件 $MODEL_PATH 不存在!" exit 1 fi CTX_SIZE=1024 N_PREDICT=512 TEMP=0.3 THREADS=4 echo "开始加载模型:$MODEL_FILE" echo "参数:上下文=$CTX_SIZE,生成token数=$N_PREDICT,温度=$TEMP,线程数=$THREADS" "$HOME/llama.cpp/build/bin/llama-cli" \ -m "$MODEL_PATH" \ -c $CTX_SIZE \ -n $N_PREDICT \ --temp $TEMP \ --threads $THREADS \ --color auto 

扩展

安装open webui

docker run -d \ --name open-webui \ -p 3000:8080 \ -e OPENAI_API_BASE_URL=http://192.168.1.191:8080/v1 \ -e OPENAI_API_KEY=sk-local \ --restart unless-stopped \ ghcr.io/open-webui/open-webui:main 

运行服务端模式

/root/llama.cpp/build/bin/llama-server \ -m /root/models/qwen2.5-coder-0.5b-instruct-q8_0.gguf \ -c 2048 \ --host 0.0.0.0 \ --port 8080 

测试服务端

curl http://127.0.0.1:8080/v1/models

响应:

{"models":[{"name":"qwen2.5-coder-0.5b-instruct-q8_0.gguf","model":"qwen2.5-coder-0.5b-instruct-q8_0.gguf","modified_at":"","size":"","digest":"","type":"model","description":"","tags":[""],"capabilities":["completion"],"parameters":"","details":{"parent_model":"","format":"gguf","family":"","families":[""],"parameter_size":"","quantization_level":""}}],"object":"list","data":[{"id":"qwen2.5-coder-0.5b-instruct-q8_0.gguf","object":"model","created":1769056357,"owned_by":"llamacpp","meta":{"vocab_type":2,"n_vocab":151936,"n_ctx_train":32768,"n_embd":896,"n_params":630167424,"size":669763072}}]}

API使用:chatbox里面导入 

http://192.168.1.191:8080/v1

Read more

了解ASR(自动语音识别)和模型Whisper

ASR是自动语音识别技术,现代端到端的主流ASR架构为: 音频 → [预处理 → 神经网络编码 → 解码] → 文本                ↑                                           ↑            信号处理                          深度学习 Whisper 是由 OpenAI 于 2022 年发布的开源语音识别模型。它是一个基于 Transformer 架构的端到端模型,具有以下核心特点:多任务模型、多语言支持、多种格式、强鲁棒性和无需微调开箱即用。 一、ASR 音频输入与预处理一般通过ffmpeg与VAD配合完成 1、特征提取与编码 现在的ASR通常使用声学特征直接输入神经网络。 常见的声学特征有以下四种,但是现在一般直接使用神经网络自动学习特征,例如Conformer编码器就是神经网络组成的。 * MFCC(梅尔频率倒谱系数):13-40维 * 梅尔频谱(Mel-Spectrogram):80-128维   * 滤波器组(Filter Bank):40-80维 * 原

【记录】Copilot|Github Copilot重新学生认证通过方法(2025年7月,包括2FA和认证材料、Why are you not on campus)

【记录】Copilot|Github Copilot重新学生认证通过方法(2025年7月,包括2FA和认证材料、Why are you not on campus)

文章目录 * 前言 * 步骤 * 最重要的一步 前言 事实上,Github Copilot马上就要开源了,我原本的认证过期了。但是在我体验了众多的代码补全工具实在是太难用了之后,我觉得一天也等不了了,就去再一次认证了学生认证。 这次严格了很多,要求巨无敌多,这里写一下新认证要干的事情。 一口气认证了八次的含金量谁懂,把要踩的坑全踩完了。。 步骤 (如果你是第一次认证还要额外添加一下自己的学校邮箱,这里我就略过不提了) 在所有的步骤之前,最好确保你的本人就在学校或者在学校附近。当你出现了报错You appear not to be near any campus location for the school you have selected.时,会非常难通过。 而其他的报错可以按我下文这种方式通过。 (对于部分学校,比如华科大)双重认证Two-factor authentication要打开:跳转这个网站https://github.com/settings/security,然后点下一步开启认证,

Copilot的Plan模式到底好在哪?

Copilot的Plan模式到底好在哪?

Copilot的Plan模式到底好在哪? 本文共 1696 字,阅读预计需要 3 分钟。 Hi,你好,我是Carl,一个本科进大厂做了2年+AI研发后,裸辞的AI创业者。 GitHub Copilot 在 VS Code 里提供了四种内置 Agent:Agent、Plan、Ask、Edit。 很多人搞不清楚 Plan 模式和 Agent 模式有什么区别——"不都是让 AI 帮我写代码吗?" 本文会从官方设计理念出发,拆解 Plan 模式的三个核心特点,并告诉你什么场景下应该选 Plan,什么时候直接用 Agent 更高效。 Plan 模式是什么?官方定义拆解 先看官方怎么说。 根据 GitHub 官方

如何微调和部署OpenVLA在机器人平台上

如何微调和部署OpenVLA在机器人平台上

这个教程来自这个英伟达网址         教程的目标是提供用于部署 VLA 模型的优化量化和推理方法,以及针对新机器人、任务和环境的参考微调流程。在一个自包含的仿真环境中,结合场景生成和领域随机化(MimicGen)对性能和准确性进行严格验证。未来阶段将包括与 Isaac Lab 和 ROS2 的 sim2real 集成、对 CrossFormer 等相关模型的研究,以及针对实时性能的神经网络结构优化。 * ✅ 针对 VLA 模型的量化和推理优化 * ✅ 原始 OpenVLA-7B 权重的准确性验证 * ✅ 基于合成数据生成的参考微调工作流程 * ✅ 在 Jetson AGX Orin 上使用 LoRA 进行设备端训练,以及在 A100/H100 实例上进行完全微调 * ✅ 在示例积木堆叠任务中通过领域随机化达到 85% 的准确率 * ✅ 提供用于复现结果的示例数据集和测试模型 1. 量化         已在 NanoLLM 的流式 VLM