本地多模型切换利器——Llama-Swap全攻略

优质文章学习记录

09 Apr 2026 — 4 min read

运行多个大语言模型（LLM）非常有用：
无论是用于比较模型输出、设置备用方案（当一个模型失败时自动切换）、还是实现行为定制（例如一个模型专注写代码，另一个模型专注技术写作），实践中我们经常以这种方式使用 LLM。

一些应用（如 poe.com）已经提供了多模型运行的平台。但如果你希望完全在本地运行、多省 API 成本，并保证数据隐私，情况就会复杂许多。

问题在于：本地设置通常意味着要处理多个端口、运行不同进程，并且手动切换，不够理想。

这正是 Llama-Swap 要解决的痛点。它是一个超轻量的开源代理服务（仅需一个二进制文件），能够让你轻松在多个本地 LLM 之间切换。简单来说，它会在本地监听 OpenAI 风格的 API 请求，并根据请求的模型名称，自动启动或停止对应的模型服务。客户端无需感知底层切换，使用体验完全透明。

📌 Llama-Swap 工作原理

概念上，Llama-Swap 就像一个智能路由器，位于多个 LLM 服务进程之前。
当 API 请求到达（如 POST /v1/chat/completions），它会检查 JSON 里的 "model" 字段，加载对应的服务进程，如果需要，还会停止其他已经运行的模型。

例如：

先请求模型 A，再请求模型 B
→ 代理会自动关掉 A 的进程，再启动 B，让每次请求都由正确的模型响应。

默认情况下，Llama-Swap 每次只允许运行一个模型。但它的 Groups 功能 可以调整：

swap: false → 组内的多个小模型可以同时运行，不会互相卸载
大模型组 → 每次只启动一个，节省资源
这样你可以灵活掌控系统资源与并发能力。

📌 环境准备

确保系统具备以下条件：

Python 3 (>=3.8)：用于脚本和工具。
llama.cpp (llama-server)：兼容 OpenAI API 的服务程序。
硬件：现代 CPU 足够；GPU 可加速。
Docker（可选）：运行预构建镜像，x86 更佳，Apple M1/M2 建议裸机安装。

Hugging Face CLI：便捷下载模型文件：

pip install -U "huggingface_hub[cli]"

Homebrew（macOS）：快速安装运行环境，例如：

brew install llama.cpp

提供 llama-server 二进制文件来运行本地模型。

📌 分步操作

1. 安装 Llama-Swap

curl -L -o llama-swap.tar.gz \ https://github.com/mostlygeek/llama-swap/releases/download/v126/llama-swap_126_darwin_arm64.tar.gz tar -xzf llama-swap.tar.gz chmod +x llama-swap ./llama-swap --version

2. 下载示例模型

以 SmolLM2-135M 和 Qwen2.5-0.5B 为例：

mkdir -p ~/llm-models huggingface-cli download bartowski/SmolLM2-135M-Instruct-GGUF \ --include "SmolLM2-135M-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models huggingface-cli download bartowski/Qwen2.5-0.5B-Instruct-GGUF \ --include "Qwen2.5-0.5B-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models

3. 配置文件（config.yaml）

models: "smollm2": cmd: | llama-server --model /path/to/models/llm-models/SmolLM2-135M-Instruct-Q4_K_M.gguf --port ${PORT} "qwen2.5": cmd: | llama-server --model /path/to/models/llm-models/Qwen2.5-0.5B-Instruct-Q4_K_M.gguf --port ${PORT}

4. 启动 Llama-Swap

./llama-swap --config config.yaml --listen 127.0.0.1:8080

5. 调用 API 测试

👉 使用 Qwen2.5

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "qwen2.5", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text'

👉 使用 SmolLM2

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "smollm2", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text'

不同模型输出风格不同：

Qwen2.5 → 更技术性、更详细
SmolLM2 → 更简洁直观

📌 结论

恭喜！你已在本地成功配置 Llama-Swap，实现双模型动态切换。
你可以扩展更多模型（如 TinyLlama、Phi-2、Mistral），并结合 LangChain、FastAPI 等框架，打造强大的个性化应用环境。

基于Vivado平台实现FPGA程序在线更新升级

1.目的：基于Vivado平台，通过对MT25QL256 SPI FLASH进行在线烧写，实现Xilinx-7K325t FPGA 程序在线更新升级。 2.MT25QL256 SPI FLASH描述 2.1.Features * spi兼容串行总线接口 * Single and double transfer rate (STR/DTR) * Clock frequency * 133 MHz (MAX) for all protocols in STR * 90 MHz (MAX) for all protocols in DTR * Dual/quad I/O command将吞吐量提高到90 MB/s * 支持协议:

带可二次开发的管理配置端 + 非低代码 + 原生支持标准化 Skill框架选择

「带可二次开发的管理配置端 + 非低代码 + 原生支持标准化 Skill」的开源 Agent 框架，筛选 3款完全匹配的框架（均为代码级可扩展、自带 Skill 管理后台、支持 SKILL.md/MCP 标准），附核心特性、二次开发要点和部署步骤，都是企业级/开发者友好的选型：一、首选：LangGraph + LangServe（LangChain 官方生态，Python 栈，极致可扩展）核心定位 LangChain 官方推出的「Agent 编排 + 服务化」框架，自带可二次开发的 Skill/Tool 管理后台（LangServe Dashboard），纯代码开发、无低代码封装，是 Python 生态的最佳选择。关键特性

发送webhook到飞书机器人

发送webhook到飞书机器人参考链接自定义机器人使用指南创建自定义机器人 1. 邀请自定义机器人进群。 2. 3. 获取签名校验在安全设置区域，选择签名校验。获取自定义机器人的 webhook 地址机器人对应的 webhook 地址格式如下： https://open.feishu.cn/open-apis/bot/v2/hook/xxxxxxxxxxxxxxxxx 请妥善保存好此 webhook 地址，不要公布在 Gitlab、博客等可公开查阅的网站上，避免地址泄露后被恶意调用发送垃圾消息。设置自定义机器人的头像、名称与描述，并点击添加。在群机器人界面点击添加机器人。在添加机器人对话框，找到并点击自定义机器人。

从0到1打造RISC-V智能家居中控：硬件+固件+通信全链路实战

👋 大家好，欢迎来到我的技术博客！ 📚 在这里，我会分享学习笔记、实战经验与技术思考，力求用简单的方式讲清楚复杂的问题。 🌱 无论你是刚入门的新手，还是正在进阶的开发者，希望你都能有所收获！文章目录 * 从0到1打造RISC-V智能家居中控：硬件+固件+通信全链路实战 🏠💡 * 为什么选择RISC-V？🤔 * 系统整体架构概览 🧩 * 第一步：硬件选型与电路搭建 🔌 * 主控芯片选择 * 外设连接 * 第二步：开发环境搭建 🛠️ * 安装步骤（以Ubuntu为例） * 第三步：裸机驱动开发（Bare Metal）⚡ * 示例1：DHT11温湿度读取（Bit-banging） * 示例2：BH1750光照传感器（I2C） * 第四步：引入FreeRTOS实现多任务调度 🔄 * 第五步：Wi-Fi连接与MQTT通信 ☁️📡 * 连接Wi-Fi * MQTT客户端（使用esp-mqtt库） * 第六步：BLE本地控制（无需Wi-Fi）📱