1. 硬件配置与能力评估
| 项目 | 规格 | 对大模型的意义 |
|---|---|---|
| 芯片 | Apple M4 Max | 最新架构,MLX 性能最优 |
| CPU | 16 核(12 性能 + 4 能效) | 预处理 / Tokenizer 充裕 |
| GPU | 40 核 Metal | Metal 加速推理的核心 |
| 统一内存 | 128 GB | 决定可跑模型的大小上限 |
| 存储 | 1 TB SSD | 可存放多个模型(20-80GB / 个) |
核心优势: 128GB 统一内存意味着 GPU 可直接访问全部内存,无需 CPU/GPU 之间的数据拷贝,这是 Apple Silicon 运行大模型的最大优势。系统占用约 8-10GB,实际可用约 118GB。
2. 环境准备
2.1 操作系统要求
确保 macOS 版本为 Sequoia (15.0) 或更高,以获得最佳的 MLX 性能支持。
查看方式:「系统设置 > 通用 > 关于本机」
2.2 安装 Homebrew
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
2.3 安装 Python 3.12+
brew install [email protected]
# 验证安装
python3 --version # 应输出 Python 3.12.x 或更高
2.4 安装 Xcode 命令行工具
xcode-select --install
如果已安装会提示「already installed」,忽略即可。
3. 方案一:安装 vllm-metal(官方推荐)
vllm-metal 是 vLLM 官方社区维护的 Apple Silicon 插件,将 MLX 和 PyTorch 统一在单一计算路径下,支持零拷贝操作。
3.1 一键安装
curl -fsSL https://raw.githubusercontent.com/vllm-project/vllm-metal/main/install.sh | bash
该脚本会自动创建虚拟环境并安装所有依赖,默认安装到 ~/.venv-vllm-metal 目录。安装过程可能需要 5-15 分钟。
3.2 激活环境
source ~/.venv-vllm-metal/bin/activate
提示: 每次打开新的终端窗口都需要重新激活。可以将激活命令添加到
~/.zshrc实现自动激活。


