本地多模型切换利器——Llama-Swap全攻略

本地多模型切换利器——Llama-Swap全攻略

运行多个大语言模型(LLM)非常有用:
无论是用于比较模型输出、设置备用方案(当一个模型失败时自动切换)、还是实现行为定制(例如一个模型专注写代码,另一个模型专注技术写作),实践中我们经常以这种方式使用 LLM。

一些应用(如 poe.com)已经提供了多模型运行的平台。但如果你希望完全在本地运行、多省 API 成本,并保证数据隐私,情况就会复杂许多。

问题在于:本地设置通常意味着要处理多个端口、运行不同进程,并且手动切换,不够理想。

这正是 Llama-Swap 要解决的痛点。它是一个超轻量的开源代理服务(仅需一个二进制文件),能够让你轻松在多个本地 LLM 之间切换。简单来说,它会在本地监听 OpenAI 风格的 API 请求,并根据请求的模型名称,自动启动或停止对应的模型服务。客户端无需感知底层切换,使用体验完全透明。


📌 Llama-Swap 工作原理

概念上,Llama-Swap 就像一个智能路由器,位于多个 LLM 服务进程之前。
当 API 请求到达(如 POST /v1/chat/completions),它会检查 JSON 里的 "model" 字段,加载对应的服务进程,如果需要,还会停止其他已经运行的模型。

例如:

  • 先请求模型 A,再请求模型 B
    → 代理会自动关掉 A 的进程,再启动 B,让每次请求都由正确的模型响应。

默认情况下,Llama-Swap 每次只允许运行一个模型。但它的 Groups 功能 可以调整:

  • swap: false → 组内的多个小模型可以同时运行,不会互相卸载
  • 大模型组 → 每次只启动一个,节省资源
    这样你可以灵活掌控系统资源与并发能力。

📌 环境准备

确保系统具备以下条件:

  • Python 3 (>=3.8):用于脚本和工具。
  • llama.cpp (llama-server):兼容 OpenAI API 的服务程序。
  • 硬件:现代 CPU 足够;GPU 可加速。
  • Docker(可选):运行预构建镜像,x86 更佳,Apple M1/M2 建议裸机安装。

Hugging Face CLI:便捷下载模型文件:

pip install -U "huggingface_hub[cli]" 

Homebrew(macOS):快速安装运行环境,例如:

brew install llama.cpp 

提供 llama-server 二进制文件来运行本地模型。


📌 分步操作

1. 安装 Llama-Swap
curl -L -o llama-swap.tar.gz \ https://github.com/mostlygeek/llama-swap/releases/download/v126/llama-swap_126_darwin_arm64.tar.gz tar -xzf llama-swap.tar.gz chmod +x llama-swap ./llama-swap --version 
2. 下载示例模型

SmolLM2-135MQwen2.5-0.5B 为例:

mkdir -p ~/llm-models huggingface-cli download bartowski/SmolLM2-135M-Instruct-GGUF \ --include "SmolLM2-135M-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models huggingface-cli download bartowski/Qwen2.5-0.5B-Instruct-GGUF \ --include "Qwen2.5-0.5B-Instruct-Q4_K_M.gguf" --local-dir ~/llm-models 
3. 配置文件(config.yaml)
models: "smollm2": cmd: | llama-server --model /path/to/models/llm-models/SmolLM2-135M-Instruct-Q4_K_M.gguf --port ${PORT} "qwen2.5": cmd: | llama-server --model /path/to/models/llm-models/Qwen2.5-0.5B-Instruct-Q4_K_M.gguf --port ${PORT} 
4. 启动 Llama-Swap
./llama-swap --config config.yaml --listen 127.0.0.1:8080 
5. 调用 API 测试

👉 使用 Qwen2.5

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "qwen2.5", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text' 

👉 使用 SmolLM2

curl -s http://localhost:8080/v1/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer no-key" \ -d '{ "model": "smollm2", "prompt": "User: What is Python?\nAssistant:", "max_tokens": 100 }' | jq '.choices[0].text' 

不同模型输出风格不同:

  • Qwen2.5 → 更技术性、更详细
  • SmolLM2 → 更简洁直观

📌 结论

恭喜!你已在本地成功配置 Llama-Swap,实现双模型动态切换。
你可以扩展更多模型(如 TinyLlama、Phi-2、Mistral),并结合 LangChain、FastAPI 等框架,打造强大的个性化应用环境。

Read more

旧安卓手机别扔!用KSWEB搭个人博客,搭配外网访问超香

旧安卓手机别扔!用KSWEB搭个人博客,搭配外网访问超香

KSWEB 作为安卓端轻量级 Web 服务器,核心功能是提供 PHP、MySQL 运行环境,能轻松部署 Typecho、WordPress 等博客系统,Termux 则可辅助管理内网穿透服务;这类工具特别适合预算有限的学生、个人博主,或是想折腾闲置设备的数码爱好者,优点也很突出 —— 对硬件要求极低,1GB 内存就能运行,旧款红米、华为畅享等机型都能适配,而且内置的运行环境无需手动配置,新手也能快速上手。 使用这套工具时也有不少需要注意的地方,比如手机要长期插电并连接稳定 Wi-Fi,否则服务容易中断;还要给 KSWEB 和 Termux 关闭电池优化、放开存储权限,我用小米手机测试时就因为没关后台限制,导致 Apache 服务频繁被系统杀掉,折腾了好一会儿才排查出问题;另外非 Root 机型也能使用,但部分文件权限操作会稍显繁琐。 不过仅靠 KSWEB 部署完博客后,只能在局域网内访问,这会带来很多不便:比如在家用电脑能连手机看博客,

By Ne0inhk
小白学前端--第九天(2026/2/20)header设计

小白学前端--第九天(2026/2/20)header设计

首页搭建 上回我们将整个项目拆分成三个主体区域,并且决定用Layout来进行设计布局。那让我们一个一个来吧。 先设置一下整体的home-page样式 .home-page { min-height: 100vh; background: #f6f7f9; display: flex; flex-direction: column; } min-height:100vh+flex-direction:column可以保证首页至少撑满整个页面,如果商品过多则往下自动撑开,不会被截断 一、header部分 import "./index.scss"; import { Layout,Input } from "antd"; const { Header} = Layout; const {Search} =Input const Home = () => { return ( <div className="home-page"

By Ne0inhk
前端小案例——网页井字棋

前端小案例——网页井字棋

前言:我们在学习完了HTML、CSS和JavaScript之后,就会想着使用这三个东西去做一些小案例,不过又没有什么好的案例让我们去练手,本篇文章就提供里一个案例——网页井字棋。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我的主页秋刀鱼不做梦-ZEEKLOG博客 目录 写在前面         ——该案例的全部代码已经放在文章末尾,有兴趣的读者可以到最后将全部代码复制到自己的编译器上运行,感受一下井字棋案例的最终效果!!! ——首先先让我们了解一下我们需要了解的前置知识: 1.HTML骨架 2.CSS装饰 1. 引入字体和全局样式 2.设置 body 样式 3 设置 .wrapper 样式 4.设置 .current-status 和其中的元素样式  5.设置 board 和 .cell 样式 6.鼠标悬浮时的图片效果 7.设置 game-end-overlay 样式 8 设置 .winning-message 样式 9.

By Ne0inhk
Springboot 4.0十字路口:虚拟线程时代,WebFlux与WebMVC的终极选择

Springboot 4.0十字路口:虚拟线程时代,WebFlux与WebMVC的终极选择

🧑 博主简介:ZEEKLOG博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c=1000,移动端可关注公众号 “ 心海云图 ” 微信小程序搜索“历代文学”)总架构师,16年工作经验,精通Java编程,高并发设计,分布式系统架构设计,Springboot和微服务,熟悉Linux,ESXI虚拟化以及云原生Docker和K8s,热衷于探索科技的边界,并将理论知识转化为实际应用。保持对新技术的好奇心,乐于分享所学,希望通过我的实践经历和见解,启发他人的创新思维。在这里,我希望能与志同道合的朋友交流探讨,共同进步,一起在技术的世界里不断学习成长。 🤝商务合作:请搜索或扫码关注微信公众号 “ 心海云图 ” Springboot 4.0十字路口:虚拟线程时代,WebFlux与WebMVC的终极选择 当虚拟线程以革命性的姿态降临Java世界,一场关于并发编程范式的静默变革正在发生。Spring开发者站在了选择的十字路口。 2023年,Java 21将虚拟线程从预览特性转为正式功能,这一变化看似只是JVM内部的优化,实则撼动了整个

By Ne0inhk