Mac Studio M4 通过 vLLM 部署本地大模型 | 极客日志

PythonAI算法

Mac Studio M4 通过 vLLM 部署本地大模型

Mac Studio M4 凭借 128GB 统一内存优势，适合本地运行大模型。介绍两种 vLLM 部署方案：vllm-metal 官方插件与 vllm-mlx 第三方实现。涵盖环境配置、国内镜像加速、模型选型（如 Qwen2.5-72B）、服务启动、API 调用测试及 Open WebUI 界面搭建。提供性能调优参数与常见问题排查指南，帮助开发者在 Apple Silicon 设备上高效构建私有化 AI 服务。

指针猎手发布于 2026/4/9更新于 2026/7/2638 浏览

1. 硬件配置与能力评估

项目	规格	对大模型的意义
芯片	Apple M4 Max	最新架构，MLX 性能最优
CPU	16 核（12 性能 + 4 能效）	预处理 / Tokenizer 充裕
GPU	40 核 Metal	Metal 加速推理的核心
统一内存	128 GB	决定可跑模型的大小上限
存储	1 TB SSD	可存放多个模型（20-80GB / 个）

核心优势： 128GB 统一内存意味着 GPU 可直接访问全部内存，无需 CPU/GPU 之间的数据拷贝，这是 Apple Silicon 运行大模型的最大优势。系统占用约 8-10GB，实际可用约 118GB。

2. 环境准备

2.1 操作系统要求

确保 macOS 版本为 Sequoia (15.0) 或更高，以获得最佳的 MLX 性能支持。

查看方式：「系统设置 > 通用 > 关于本机」

2.2 安装 Homebrew

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

2.3 安装 Python 3.12+

brew install [email protected]
# 验证安装
python3 --version # 应输出 Python 3.12.x 或更高

2.4 安装 Xcode 命令行工具

xcode-select --install

如果已安装会提示「already installed」，忽略即可。

3. 方案一：安装 vllm-metal（官方推荐）

vllm-metal 是 vLLM 官方社区维护的 Apple Silicon 插件，将 MLX 和 PyTorch 统一在单一计算路径下，支持零拷贝操作。

3.1 一键安装

curl -fsSL https://raw.githubusercontent.com/vllm-project/vllm-metal/main/install.sh | bash

该脚本会自动创建虚拟环境并安装所有依赖，默认安装到 ~/.venv-vllm-metal 目录。安装过程可能需要 5-15 分钟。

3.2 激活环境

source ~/.venv-vllm-metal/bin/activate

提示： 每次打开新的终端窗口都需要重新激活。可以将激活命令添加到 ~/.zshrc 实现自动激活。

3.3 验证安装

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

vllm --version # 应输出 vLLM 版本号，如 0.13.x

rm -rf ~/.venv-vllm-metal

python3 -m venv ~/.venv-vllm-mlx
source ~/.venv-vllm-mlx/bin/activate

pip install vllm-mlx

vllm-mlx --help

export HF_ENDPOINT=https://hf-mirror.com

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.zshrc
source ~/.zshrc

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

模型名称	内存占用	优势	推荐等级
`Qwen3-30B-A3B-4bit`	~18 GB	MoE 架构，速度极快	⭐⭐⭐ 强烈推荐
`Qwen2.5-72B-Instruct-4bit`	~42 GB	中英文都强	⭐⭐⭐ 强烈推荐
`Llama-3.1-70B-Instruct-4bit`	~40 GB	英文能力顶级	⭐⭐ 推荐
`DeepSeek-V3-0324-4bit`	~80 GB	MoE，综合能力强	⭐ 可尝试
`Llama-3.1-70B-Instruct-8bit`	~75 GB	高精度，质量更好	⭐ 可尝试

# 安装下载工具
pip install huggingface_hub
# 下载模型到本地目录
huggingface-cli download \
  mlx-community/Qwen2.5-72B-Instruct-4bit \
  --local-dir ~/models/Qwen2.5-72B-Instruct-4bit
# 如下载中断，重新执行同一命令即可续传

# 激活环境
source ~/.venv-vllm-metal/bin/activate
# 方式一：在线模型（自动下载）
vllm serve mlx-community/Qwen2.5-72B-Instruct-4bit \
  --port 8000 \
  --host 0.0.0.0
# 方式二：本地模型（已手动下载）
vllm serve ~/models/Qwen2.5-72B-Instruct-4bit \
  --port 8000 \
  --host 0.0.0.0

# 激活环境
source ~/.venv-vllm-mlx/bin/activate
# 启动服务
vllm-mlx serve mlx-community/Qwen2.5-72B-Instruct-4bit \
  --port 8000

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{ "model": "mlx-community/Qwen2.5-72B-Instruct-4bit", "messages": [ {"role": "system", "content": "你是一个有用的 AI 助手"}, {"role": "user", "content": "你好，请用中文介绍一下你自己"} ], "max_tokens": 512, "temperature": 0.7 }'

pip install openai

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-needed" # 本地服务无需 API Key
)
response = client.chat.completions.create(
    model="mlx-community/Qwen2.5-72B-Instruct-4bit",
    messages=[
        {"role": "user", "content": "解释什么是量子计算"}
    ],
    max_tokens=1024
)
print(response.choices[0].message.content)

curl http://localhost:8000/health

curl http://localhost:8000/v1/models

pip install open-webui

open-webui serve

指标	72B-4bit 预期	30B-MoE-4bit 预期
Prompt 处理速度	~100-300 tokens/s	~300-500 tokens/s
生成速度（单用户）	~15-25 tokens/s	~40-60 tokens/s
并发用户数	2-4 人	4-8 人

# 启用实验性的 Paged Attention（可显著提升性能）
export VLLM_METAL_USE_PAGED_ATTENTION=1
# 然后启动服务
vllm serve mlx-community/Qwen2.5-72B-Instruct-4bit --port 8000

rm -rf ~/.venv-vllm-metal
curl -fsSL https://raw.githubusercontent.com/vllm-project/vllm-metal/main/install.sh | bash

# 查找占用 8000 端口的进程
lsof -i :8000
# 终止该进程
kill -9 <PID>
# 或者换用其他端口
vllm serve mlx-community/Qwen2.5-72B-Instruct-4bit --port 8001

对比项	vllm-metal	vllm-mlx
维护方	vLLM 官方社区 + Docker	第三方独立项目
安装方式	Shell 脚本一键安装	pip install
多模态	文本为主	文本、图像、视频、音频
API 兼容	OpenAI 兼容	OpenAI + Anthropic 兼容
长期前景	官方背书，更有保障	功能更丰富，迭代更快
推荐场景	稳定性优先、生产环境	功能优先、开发测试

Mac Studio M4 通过 vLLM 部署本地大模型

1. 硬件配置与能力评估

2. 环境准备

2.1 操作系统要求

2.2 安装 Homebrew

2.3 安装 Python 3.12+

2.4 安装 Xcode 命令行工具

3. 方案一：安装 vllm-metal（官方推荐）

3.1 一键安装

3.2 激活环境

3.3 验证安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.4 卸载方法

4. 方案二：安装 vllm-mlx（简单快速）

4.1 创建虚拟环境

4.2 安装 vllm-mlx

4.3 验证安装

5. 配置国内镜像加速

5.1 临时配置（当前终端有效）

5.2 永久配置（推荐）

5.3 pip 镜像加速（可选）

6. 模型选型推荐

6.1 手动下载模型（可选）

7. 启动模型服务

7.1 使用 vllm-metal 启动

7.2 使用 vllm-mlx 启动

8. API 调用测试

8.1 使用 curl 测试

8.2 使用 Python 测试

8.3 检查服务健康状态

8.4 查看已加载的模型

9. 搭配 Web UI 界面

9.1 安装 Open WebUI

9.2 启动 Open WebUI

9.3 配置连接

10. 性能调优与监控

10.1 预期性能

10.2 内存监控

10.3 环境变量调优

11. 常见问题排查

11.1 安装脚本报错

11.2 模型下载速度极慢或超时

11.3 加载模型时报错或系统卡死

11.4 端口冲突：port 8000 already in use

11.5 生成速度慢

12. 两种方案对比总结

总结建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具