大模型推理服务框架 LocalAI 一键部署指南

一、引言

LocalAI 是一个开源的本地化 AI 模型推理框架，旨在提供与 OpenAI API 完全兼容的服务。它支持多种模型格式（如 GGUF），允许开发者在本地或私有服务器上快速部署大语言模型，无需依赖外部云服务，特别适合对数据隐私有要求或网络环境受限的场景。

相较于其他推理框架，LocalAI 的优势在于其容器化部署的便捷性以及对多模态任务的支持。本文将详细介绍如何在 Linux 服务器环境下，通过 Docker 一键部署 LocalAI，并解决国内网络环境下的模型下载问题，最后提供 API 调用的完整示例。

二、环境准备

1. 硬件要求

CPU: 建议 4 核以上。
内存: 至少 8GB RAM，运行较大模型建议 16GB 或以上。
GPU: 推荐使用 NVIDIA GPU，需安装 CUDA 驱动以加速推理。若使用 CPU 模式，速度会相对较慢。
存储: 根据模型大小预留空间，单个量化模型通常占用 2GB-10GB 不等。

2. 软件要求

操作系统: Linux (Ubuntu/CentOS) 或 macOS。
Docker: 版本 20.10+。
Docker Compose: 可选，但本教程主要使用 Docker CLI。
Git: 用于拉取项目代码。

三、安装步骤

1. 克隆项目仓库

首先，从 GitHub 获取 LocalAI 的最新源代码：

git clone https://github.com/mudler/LocalAI

进入项目目录：

cd LocalAI

2. 准备模型文件

LocalAI 支持加载 Hugging Face 上的 GGUF 格式模型。由于国内网络限制，直接访问 huggingface.co 可能会失败，建议使用镜像站。

创建 models 目录并下载模型：

mkdir -p models
wget https://hf-mirror.com/TheBloke/Luna-AI-Llama2-Uncensored-GGUF/resolve/main/luna-ai-llama2-uncensored.Q4_0.gguf -O models/luna-ai-llama2

注意：如果 wget 命令不可用，可使用 curl 替代。

3. 配置 Prompt 模板

为了让模型更好地遵循指令，需要复制默认的提示词模板到 models 目录：

cp -rf prompt-templates/getting_started.tmpl models/luna-ai-llama2.tmpl

这将创建一个名为 luna-ai-llama2.tmpl 的文件，用于定义对话的系统提示。

4. 启动 Docker 容器

使用官方提供的 aio-gpu 镜像启动服务。该镜像集成了文生文、图生文等多种能力。

docker run -tid \
  --name local-ai \
  -p 16080:8080 \
  --gpus all \
  -v /path/to/LocalAI/models:/models \
  localai/localai:latest-aio-gpu-nvidia-cuda-12 \
  --models-path /models

大模型推理服务框架 LocalAI 一键部署指南