LocalAI 本地推理引擎：不用 GPU 也能跑大模型

LocalAI 是一个开源的本地 AI 推理引擎，定位很直接：拿来当 OpenAI、ElevenLabs、Anthropic 这类商业 API 的替代方案。它不要求你一定有 GPU，消费级硬件上也能把一些常见 AI 任务跑起来。

它覆盖的范围比较广，常见的是这几类：

CPU 也能用
依靠量化和高效后端（比如 llama.cpp），7B 级别模型在 CPU 上可以跑起来。速度当然比不上带 GPU 的方案，但如果目标是本地可用、部署成本低，这已经够实用了。
能力覆盖得比较全
它不是只做文本推理，而是把语音、图像和一些多模态能力一起打包进来。后端也比较杂，但好处是覆盖面大，坏处是不同任务的调优成本不一样，不能指望每个场景都一样省心。
兼容 OpenAI API
这一点很关键。现成应用如果已经按 OpenAI 的接口写好，迁移到 LocalAI 时改动会小很多。对想先把模型从云端挪回内网的人来说，这种兼容性比'功能多'更值钱。
跨平台部署比较完整
它同时支持 NVIDIA CUDA、AMD ROCm、Intel oneAPI，也能在 macOS、Linux、Windows 上跑，另外还提供 Docker 和 Kubernetes 部署方式。实际落地时，容器化通常还是最省事的入口。

curl https://localai.io/install.sh | sh

local-ai run llama-3.2-1b-instruct:q4_k_m

local-ai start

也可以直接用 Docker 起一个实例：

docker run -p 8080:8080 localai/localai:latest

启动后访问 http://localhost:8080，可以直接用内置 WebUI 做聊天、绘图、语音合成。

LocalAI 通过模块化后端支持 50+ 模型架构。下面这张表更适合快速看它的覆盖范围：

任务类型	支持后端	加速方案
文本生成	llama.cpp, vLLM, MLX（苹果芯片）	CUDA/ROCm/Metal
语音识别	Whisper.cpp, faster-whisper	多语言转录
图像生成	stablediffusion.cpp, Diffusers	Vulkan/Intel SYCL

更多推荐文章