本地多模型切换利器——Llama-Swap全攻略

Ne0inhk

22 Mar 2026 — 4 min read

运行多个大语言模型（LLM）非常有用：
无论是用于比较模型输出、设置备用方案（当一个模型失败时自动切换）、还是实现行为定制（例如一个模型专注写代码，另一个模型专注技术写作），实践中我们经常以这种方式使用 LLM。

一些应用（如 poe.com）已经提供了多模型运行的平台。但如果你希望完全在本地运行、多省 API 成本，并保证数据隐私，情况就会复杂许多。

问题在于：本地设置通常意味着要处理多个端口、运行不同进程，并且手动切换，不够理想。

这正是 Llama-Swap 要解决的痛点。它是一个超轻量的开源代理服务（仅需一个二进制文件），能够让你轻松在多个本地 LLM 之间切换。简单来说，它会在本地监听 OpenAI 风格的 API 请求，并根据请求的模型名称，自动启动或停止对应的模型服务。客户端无需感知底层切换，使用体验完全透明。

📌 Llama-Swap 工作原理

概念上，Llama-Swap 就像一个智能路由器，位于多个 LLM 服务进程之前。
当 API 请求到达（如 POST /v1/chat/completions），它会检查 JSON 里的 "model" 字段，加载对应的服务进程，如果需要，还会停止其他已经运行的模型。

例如：

先请求模型 A，再请求模型 B
→ 代理会自动关掉 A 的进程，再启动 B，让每次请求都由正确的模型响应。

默认情况下，Llama-Swap 每次只允许运行一个模型。但它的 Groups 功能 可以调整：

swap: false → 组内的多个小模型可以同时运行，不会互相卸载
大模型组 → 每次只启动一个，节省资源
这样你可以灵活掌控系统资源与并发能力。

📌 环境准备

确保系统具备以下条件：

Python 3 (>=3.8)：用于脚本和工具。
llama.cpp (llama-server)：兼容 OpenAI API 的服务程序。
硬件：现代 CPU 足够；GPU 可加速。
Docker（可选）：运行预构建镜像，x86 更佳，Apple M1/M2 建议裸机安装。

Hugging Face CLI：便捷下载模型文件：

pip install -U "huggingface_hub[cli]"

Homebrew（macOS）：快速安装运行环境，例如：

brew install llama.cpp

提供 llama-server 二进制文件来运行本地模型。

📌 分步操作

1. 安装 Llama-Swap

curl -L -o llama-swap.tar.gz \ https://github.com/mostlygeek/llama-swap/releases/download/v126/llama-swap_126_darwin_arm64.tar.gz tar -xzf llama-swap.tar.gz chmod +x llama-swap ./llama-swap --version

2. 下载示例模型

以 SmolLM2-135M 和 Qwen2.5-0.5B 为例：

mkdir -p ~/llm-models huggingface-cli download bartowski/SmolLM2-135M-Instruct-GGUF \ --include "SmolLM2-135M-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models huggingface-cli download bartowski/Qwen2.5-0.5B-Instruct-GGUF \ --include "Qwen2.5-0.5B-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models

3. 配置文件（config.yaml）

models: "smollm2": cmd: | llama-server --model /path/to/models/llm-models/SmolLM2-135M-Instruct-Q4_K_M.gguf --port ${PORT} "qwen2.5": cmd: | llama-server --model /path/to/models/llm-models/Qwen2.5-0.5B-Instruct-Q4_K_M.gguf --port ${PORT}

4. 启动 Llama-Swap

./llama-swap --config config.yaml --listen 127.0.0.1:8080

5. 调用 API 测试

👉 使用 Qwen2.5

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "qwen2.5", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text'

👉 使用 SmolLM2

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "smollm2", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text'

不同模型输出风格不同：

Qwen2.5 → 更技术性、更详细
SmolLM2 → 更简洁直观

📌 结论

恭喜！你已在本地成功配置 Llama-Swap，实现双模型动态切换。
你可以扩展更多模型（如 TinyLlama、Phi-2、Mistral），并结合 LangChain、FastAPI 等框架，打造强大的个性化应用环境。

VSCode + Copilot 保姆级 AI 编程实战教程，免费用 Claude，夯爆了！

从安装到实战，手把手教你用 VSCode + GitHub Copilot 进行 AI 编程你好，我是程序员鱼皮。 AI 编程工具现在是真的百花齐放，Cursor、Claude Code、OpenCode、…… 每隔一段时间就冒出来一个新选手。之前我一直沉迷于 Cursor 和 Claude Code，直到最近做新项目时认真体验了一把 GitHub Copilot，才发现这玩意儿真夯啊！先简单介绍一下主角。VSCode 是微软出品的全球最流行的代码编辑器，装机量破亿；GitHub Copilot 则是 GitHub 官方出品的 AI 编程助手插件，直接安装在 VSCode 中使用。个人体验下来，相比其他 AI 编程工具有 4 大优势： 1. 支持最新 AI 大模型，

VSCode + Copilot下：配置并使用 DeepSeek

以下是关于在 VSCode + Copilot 中，通过 OAI Compatible Provider for Copilot 插件配置并使用 DeepSeek 系列模型 (deepseek-chat, deepseek-reasoner, deepseek-coder) 的完整汇总指南。 🎯 核心目标通过该插件，将支持 OpenAI API 格式的第三方大模型（此处为 DeepSeek）接入 VSCode 的官方 Copilot 聊天侧边栏，实现原生体验的调用。 📦 第一步：准备工作在开始配置前，请确保已完成以下准备：步骤操作说明1. 安装插件在 VSCode 扩展商店搜索并安装 OAI Compatible Provider for Copilot。这是连接 Copilot 与第三方模型的核心桥梁。2. 获取 API

GitHub Copilot 调用第三方模型API

一、说明 OAI Compatible Provider for Copilot 的作用是：把 Copilot/Copilot Chat 发出的“类似 OpenAI API 的请求”，转发到指定的 OpenAI-Compatible 服务端（例如 ModelScope 推理网关、自建的兼容网关等）。 ⚠️ Warning 登录 GitHub Copilot 的账号一定要是非组织方式开通 pro 会员的，不然无法管理模型。推荐直接用免费的free账号登录即可。二、插件安装在 VS Code 扩展市场安装并启用： * GitHub Copilot * GitHub Copilot Chat * OAI Compatible Provider for Copilot （johnny-zhao.

IDEA高效集成GitLab：完整Git工作流指南

文章目录 * 前言 * 一、IDEA配置Git * 二、GitLab 创建项目并导入IDEA * 三、IDEA 运行项目 * 四、Git 操作流程 * 1. 项目提交与推送 * 2. 分支管理 * 3. 合并冲突 * 4. 提交历史和还原 * 五、接口测试前言本文将详细介绍如何通过 IntelliJ IDEA 实现与 GitLab 集成，完成完整的 Git 工作流程。主要内容包括：IDEA 的 Git 配置、GitLab 项目创建与导入，以及日常开发中最常用的 Git 操作，涵盖代码提交与推送、分支管理、合并冲突解决和提交历史查看/回滚等核心功能。 ps: 部署 Git