大模型推理服务框架 LocalAI 一键部署指南
一、引言
LocalAI 是一个开源的本地化 AI 模型推理框架,旨在提供与 OpenAI API 完全兼容的服务。它支持多种模型格式(如 GGUF),允许开发者在本地或私有服务器上快速部署大语言模型,无需依赖外部云服务,特别适合对数据隐私有要求或网络环境受限的场景。
相较于其他推理框架,LocalAI 的优势在于其容器化部署的便捷性以及对多模态任务的支持。本文将详细介绍如何在 Linux 服务器环境下,通过 Docker 一键部署 LocalAI,并解决国内网络环境下的模型下载问题,最后提供 API 调用的完整示例。
二、环境准备
1. 硬件要求
- CPU: 建议 4 核以上。
- 内存: 至少 8GB RAM,运行较大模型建议 16GB 或以上。
- GPU: 推荐使用 NVIDIA GPU,需安装 CUDA 驱动以加速推理。若使用 CPU 模式,速度会相对较慢。
- 存储: 根据模型大小预留空间,单个量化模型通常占用 2GB-10GB 不等。
2. 软件要求
- 操作系统: Linux (Ubuntu/CentOS) 或 macOS。
- Docker: 版本 20.10+。
- Docker Compose: 可选,但本教程主要使用 Docker CLI。
- Git: 用于拉取项目代码。
三、安装步骤
1. 克隆项目仓库
首先,从 GitHub 获取 LocalAI 的最新源代码:
git clone https://github.com/mudler/LocalAI
进入项目目录:
cd LocalAI
2. 准备模型文件
LocalAI 支持加载 Hugging Face 上的 GGUF 格式模型。由于国内网络限制,直接访问 huggingface.co 可能会失败,建议使用镜像站。
创建 models 目录并下载模型:
mkdir -p models
wget https://hf-mirror.com/TheBloke/Luna-AI-Llama2-Uncensored-GGUF/resolve/main/luna-ai-llama2-uncensored.Q4_0.gguf -O models/luna-ai-llama2
注意:如果 wget 命令不可用,可使用 curl 替代。
3. 配置 Prompt 模板
为了让模型更好地遵循指令,需要复制默认的提示词模板到 models 目录:
cp -rf prompt-templates/getting_started.tmpl models/luna-ai-llama2.tmpl
这将创建一个名为 luna-ai-llama2.tmpl 的文件,用于定义对话的系统提示。
4. 启动 Docker 容器
使用官方提供的 aio-gpu 镜像启动服务。该镜像集成了文生文、图生文等多种能力。
docker run -tid \
--name local-ai \
-p 16080:8080 \
--gpus all \
-v /path/to/LocalAI/models:/models \
localai/localai:latest-aio-gpu-nvidia-cuda-12 \
--models-path /models


