基于 exo 的 Mac mini AI 推理集群构建：架构与实战 | 极客日志

编程语言AI算法

基于 exo 的 Mac mini AI 推理集群构建：架构与实战

介绍利用 exo 分布式推理框架在 Mac mini M4 Pro 集群上部署大规模 AI 模型的方法。通过 Thunderbolt 5 RDMA 实现低延迟通信，支持张量并行和流水线并行。内容涵盖硬件选型、集群拓扑设计、系统配置（RDMA 启用）、模型部署流程、性能优化及生产环境高可用方案。实测显示该方案能以较低成本实现接近企业级的推理性能。

JavaCoder发布于 2026/4/6更新于 2026/7/2770 浏览

使用 exo 技术构建 Mac mini AI 推理集群：从架构到实战

1. 引言

1.1 背景

大语言模型的参数规模已从数十亿级别发展到数千亿甚至万亿级别。DeepSeek-V3（671B 参数）、Qwen3-235B 等模型需要数百 GB 显存，单台消费级设备无法完整加载。传统解决方案依赖昂贵的企业级 GPU 集群，而 Apple Silicon 的统一内存架构（Unified Memory Architecture）为分布式推理提供了新的可能性。

1.2 exo 技术简介

exo 是由 exo labs 开发的开源分布式 AI 推理框架，主要特性包括：

自动设备发现：运行 exo 的设备自动组网，无需手动配置
Thunderbolt 5 RDMA：99% 延迟降低，实现近似本地的设备间通信
拓扑感知自动并行：根据设备资源和网络拓扑自动分配模型分片
张量并行：2 设备可达 1.8x 加速，4 设备可达 3.2x 加速
MLX 后端：利用 Apple Silicon 的硬件加速特性

官方仓库：https://github.com/exo-explore/exo

1.3 Mac mini M4 硬件优势

Mac mini M4/M4 Pro 是理想的集群节点，具有以下特点：

规格	M4	M4 Pro
CPU	10 核（4P+6E）	12 核（8P+4E）或 14 核
GPU	10 核	16 核或 20 核
统一内存	16/24/32GB	24/48/64GB
内存带宽	120GB/s	273GB/s
Thunderbolt	TB4 (40Gb/s)	TB5 (120Gb/s)
尺寸	5×5×2 英寸	5×5×2 英寸
功耗	最大 155W	最大 155W

关键优势：

统一内存：CPU/GPU 共享内存，无需数据拷贝
Thunderbolt 5：M4 Pro 支持 120Gb/s 带宽，适合 RDMA 通信
低功耗：相比 NVIDIA H100（700W），功耗仅 1/4
紧凑尺寸：易于机架式部署

2. 架构设计

2.1 集群拓扑

exo 支持多种集群拓扑，以下是推荐配置：

2.1.1 星型拓扑（2-4 节点）

 [Mac mini 1] | | Thunderbolt 5 | [Mac mini 2]─┼─ |

[Mac mini 1]─┬─[Mac mini 2] │ │ │ │ └───────┼───[Mac mini 3] │ │ └───────────────┴───[Mac mini 4]

Device 1: Layers 1-20 Device 2: Layers 21-40 Device 3: Layers 41-60 Device 4: Layers 61-80

Device 1: W[:, 0:N/4] Device 2: W[:, N/4:N/2] Device 3: W[:, N/2:3N/4] Device 4: W[:, 3N/4:N]

Mac mini 1 ─TB5─ Mac mini 2 │ │ TB5 TB5 │ │ Mac mini 4 ─TB5─ Mac mini 3 │ │ TB5───────────────TB5

system_profiler SPThunderboltDataType # 查看是否显示 RDMA 接口

rdma_ctl enable

# 安装 Homebrew
/bin/bash -c"$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# 安装依赖
brew install uv macmon node
# 安装 Rust（需要 nightly）
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
rustup toolchain install nightly

# 克隆仓库
git clone https://github.com/exo-explore/exo
cd exo
# 构建仪表盘
cd dashboard
npm install
npm run build
cd..
# 运行 exo
uv run exo

# 下载 DMG
curl -O https://assets.exolabs.net/EXO-latest.dmg
# 挂载并安装
open EXO-latest.dmg
# 将 EXO.app 拖到 Applications

# 从源码运行
sudo ./tmp/set_rdma_network_config.sh

ifconfig|grep-A5"rdma"# 应该看到 rdma0, rdma1 等接口

uv run exo

uv run exo

curl http://localhost:52415/state | jq '.nodes'

{"nodes":[{"id":"local","name":"Mac-mini-1","capabilities":{"memory":68719476736,"device":"mps"}},{"id":"QmXxxx...","name":"Mac-mini-2","capabilities":{"memory":68719476736,"device":"mps"}}// ... 其他节点]}

curl http://localhost:52415/models | jq '.models[] | {id, name, size}'

curl "http://localhost:52415/instance/previews?model_id=qwen3-235b"| jq '.previews[]'

{"model_id":"mlx-community/Qwen3-235B-Instruct-8bit","sharding":"Tensor","instance_meta":"MlxRing","memory_delta_by_node":{"local":62914560000,"QmAbc...":62914560000,"QmDef...":62914560000,"QmGhi...":62914560000},"error":null}

# 过滤出无错误的方案
curl "http://localhost:52415/instance/previews?model_id=qwen3-235b"\| jq '.previews[] | select(.error == null) | .instance'\|head-n1> instance.json

# 使用预览的方案
curl-X POST http://localhost:52415/instance \-H'Content-Type: application/json'\-d @instance.json

{"message":"Command received.","command_id":"e9d1a8ab-1234-5678-90ab-cdef12345678"}

# 查看所有实例
curl http://localhost:52415/state | jq '.instances'

# 在每个节点查看日志
tail-f ~/.local/share/exo/exo.log # Linux
tail-f ~/Library/Logs/exo/exo.log # macOS

curl-N-X POST http://localhost:52415/v1/chat/completions \-H'Content-Type: application/json'\-d'{ "model": "mlx-community/Qwen3-235B-Instruct-8bit", "messages": [ {"role": "system", "content": "You are a helpful AI assistant."}, {"role": "user", "content": "Explain quantum computing in simple terms."} ], "stream": true, "max_tokens": 500, "temperature": 0.7 }'

data: {"choices":[{"delta":{"content":"Quantum"}]}
data: {"choices":[{"delta":{"content":" computing"}]}
...
data: [DONE]

curl-X POST http://localhost:52415/v1/chat/completions \-H'Content-Type: application/json'\-d'{ "model": "mlx-community/Qwen3-235B-Instruct-8bit", "messages": [{"role": "user", "content": "Hello!"}], "stream": false }'| jq '.choices[0].message.content'

from openai import OpenAI

# 指向 exo 集群
client = OpenAI(
    base_url="http://localhost:52415/v1",
    api_key="not-needed" # exo 不需要 API key
)
response = client.chat.completions.create(
    model="mlx-community/Qwen3-235B-Instruct-8bit",
    messages=[{"role":"user","content":"Write a haiku about AI clusters"}],
    stream=True
)
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end='')

# 测试不同 prompt 长度和生成长度
uv run bench/exo_bench.py \--model Qwen3-235B-Instruct-8bit \--pp128,256,512,1024 \--tg128,256,512 \ --max-nodes 4\--sharding tensor \--repeat3\ --json-out results.json

cat results.json | jq '.[] | { nodes: .num_nodes, sharding: .sharding, prompt_tps: .prompt_tps, gen_tps: .generation_tps, memory_gb: (.peak_memory / 1073741824 | round) }'

# 安装
brew install macmon
# 实时监控
macmon

GPU: 45% | CPU: 68% | ANE: 12% Mem: 52.3 / 64.0 GB Pwr: 85W | Temp: 65°C

# 查看 RDMA 接口统计
netstat-I rdma0 -w1
# 使用 iftop 监控带宽
sudo iftop -i rdma0

# 使用 MLX 的动态 KV Cache
import mlx.core as mx
# 设置最大 cache 长度
max_cache_len =4096
# 启用 sliding window
use_sliding_window =True

# 将部分层卸载到 SSD
export MLX_OFFLOAD_LAYERS=20
uv run exo

# 检查 RDMA 配置
ifconfig rdma0 |grep mtu # 增大 MTU（如果支持）
sudo ifconfig rdma0 mtu 9000

# 从 HuggingFace 下载预量化模型
# mlx-community 提供了很多优化版本
curl "http://localhost:52415/models"|grep mlx-community

[Load Balancer]
|
[Coordinator]
/ | \ 
N1 N2 N3 N4

uv run exo --no-worker

frontend exo_frontend
bind *:8080
default_backend exo_nodes
backend exo_nodes
balance roundrobin
option httpchk GET /health
server node1 192.168.1.101:52415 check
server node2 192.168.1.102:52415 check
server node3 192.168.1.103:52415 check
server node4 192.168.1.104:52415 check

# 仅允许内网访问 exo API
sudo /usr/libexec/ApplicationFirewall/socketfilterfw --add /path/to/exo
sudo pfctl -e
# 编辑 /etc/pf.conf
block in all
pass in on en0 from 192.168.1.0/24 to any port 52415

server {
listen 443 ssl;
server_name exo.example.com;
ssl_certificate /path/to/cert.pem;
ssl_certificate_key /path/to/key.pem;
location / {
auth_basic "Restricted";
auth_basic_user_file /etc/nginx/.htpasswd;
proxy_pass http://localhost:52415;
proxy_http_version 1.1;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection "upgrade";
}
}

# metrics_exporter.py
from prometheus_client import start_http_server, Gauge
import requests
import time

# 定义指标
node_memory = Gauge('exo_node_memory_bytes','Memory usage',['node'])
inference_tps = Gauge('exo_inference_tps','Tokens per second')

def collect_metrics():
state = requests.get('http://localhost:52415/state').json()
for node in state['nodes']:
node_memory.labels(node=node['name']).set(node['memory_used'])

if __name__ =='__main__':
start_http_server(9090)
while True:
collect_metrics()
time.sleep(10)

# promtail-config.yaml
clients:
- url: http://loki:3100/loki/api/v1/push
scrape_configs:
- job_name: exo
static_configs:
- targets:
- localhost
labels:
job: exo
__path__: /Users/*/.local/share/exo/exo.log

# 1. 检查防火墙
sudo pfctl -s rules |grep52415
# 2. 检查 libp2p 端口
lsof-i :52415
# 3. 验证网络连通性
ping<other-node-ip>
# 4. 检查 namespace 配置
env|grep EXO_LIBP2P_NAMESPACE

# 检查 RDMA 状态
system_profiler SPThunderboltDataType |grep-i rdma
# 检查 macOS 版本
sw_vers |grep ProductVersion # 必须 >= 26.2
# 检查 rdma_ctl
rdma_ctl status

# 查看预期内存使用
curl "http://localhost:52415/instance/previews?model_id=qwen3-235b"\| jq '.previews[0].memory_delta_by_node'
# 检查实际可用内存
sysctl hw.memsize

# 运行 benchmark
uv run bench/exo_bench.py \--model llama-3.2-1b \--pp128--tg128\--repeat1
# 检查是否使用 RDMA
curl http://localhost:52415/state | jq '.instances[].meta'# 应该显示 "MlxRing"（RDMA）而非 "MlxDist"

# exo 主日志
~/Library/Logs/exo/exo.log
# 系统日志（RDMA 相关）
/var/log/system.log
# Thunderbolt 日志
log show --predicate'subsystem == "com.apple.thunderbolt"'--last 1h

# exo 主日志
~/.local/share/exo/exo.log
# 系统日志
journalctl -u exo -f

export EXO_LOG_LEVEL=DEBUG
uv run exo

curl-N-X POST http://localhost:52415/v1/chat/completions \-H'Content-Type: application/json'\-d'{ "model": "mlx-community/Qwen3-235B-Instruct-8bit", "messages": [{"role": "user", "content": "你好"}], "stream": true }'

# 预览方案
curl "http://localhost:52415/instance/previews?model_id=qwen3-235b"\| jq '.previews[] | select(.sharding=="Tensor") | .instance'\|head-n1> qwen3_instance.json
# 创建实例
curl-X POST http://localhost:52415/instance \-H'Content-Type: application/json'\-d @qwen3_instance.json

git clone https://github.com/exo-explore/exo
cd exo && uv run exo

# 恢复模式执行
rdma_ctl enable

Mini1 ─── Mini2
│ ╳ │
│ ╱ ╲ │
Mini4 ─── Mini3

维度	Mac mini M4 Pro 集群	NVIDIA H100 集群
硬件成本	$8,000（4 节点）	$150,000+（4 卡）
功耗	600W	2,800W+
噪音	静音（风扇低速）	80+ dB（数据中心）
部署复杂度	低（即插即用）	高（需要机架服务器）
通信延迟	8μs（RDMA over TB5）	2μs（NVLink）
内存带宽	273GB/s/节点	3,350GB/s/卡
推理速度	中等	快
适用场景	中小企业、研究实验室	大规模生产环境

#!/bin/bash
# 启动 exo 集群节点
set -e
echo "Starting exo cluster node..."
# 检查依赖
command -v uv >/dev/null 2>&1 ||{echo"uv not installed";exit1;}
# 设置环境变量
export EXO_LIBP2P_NAMESPACE="${EXO_LIBP2P_NAMESPACE:-default}"
export EXO_LOG_LEVEL="${EXO_LOG_LEVEL:-INFO}"
# 切换到 exo 目录
cd ~/exo
# 启动 exo（后台运行）
nohup uv run exo > ~/exo.log 2>&1 &
echo$!> ~/exo.pid
echo"exo started with PID $(cat ~/exo.pid)"
echo"Dashboard: http://localhost:52415"
echo"Logs: tail -f ~/exo.log"

#!/bin/bash
# 停止 exo 节点
if[-f ~/exo.pid ];then
PID=$(cat ~/exo.pid)
kill$PID
rm ~/exo.pid
echo"exo stopped (PID $PID)"
else
echo"exo not running"
fi

# 列出所有模型
curl http://localhost:52415/models | jq -r'.models[] | .id'
# 查看集群状态
curl http://localhost:52415/state | jq '.nodes[] | {name, memory, device}'
# 删除实例
curl-X DELETE http://localhost:52415/instance/<INSTANCE_ID>
# 重新加载实例
curl-X POST http://localhost:52415/instance/reload/<INSTANCE_ID>

基于 exo 的 Mac mini AI 推理集群构建：架构与实战

使用 exo 技术构建 Mac mini AI 推理集群：从架构到实战

1. 引言

1.1 背景

1.2 exo 技术简介

1.3 Mac mini M4 硬件优势

2. 架构设计

2.1 集群拓扑

2.1.1 星型拓扑（2-4 节点）

2.1.2 网状拓扑（4+ 节点）

2.2 并行策略

2.2.1 流水线并行（Pipeline Parallelism）

2.2.2 张量并行（Tensor Parallelism）

2.3 内存规划

3. 部署实战

3.1 硬件准备

3.1.1 设备清单（4 节点示例）

3.1.2 连接方式

3.2 系统配置

3.2.1 启用 RDMA（macOS 26.2+）

3.2.2 安装 exo（方法 1：源码）

3.2.3 安装 exo（方法 2：macOS App）

3.2.4 网络配置

3.3 集群启动

3.3.1 在每台设备上启动 exo

3.3.2 验证集群状态

4. 模型部署

4.1 模型选择与预览

4.1.1 查看可用模型

4.1.2 预览部署方案

4.2 创建模型实例

4.2.1 部署模型

4.2.2 监控部署状态

4.3 推理测试

4.3.1 Chat Completion API

4.3.2 非流式推理

4.3.3 使用 Python SDK

5. 性能优化与监控

5.1 基准测试

5.1.1 运行基准测试

5.1.2 分析结果

5.2 实时监控

5.2.1 Dashboard 监控

5.2.2 硬件监控（macOS）

5.2.3 网络监控

5.3 调优建议

5.3.1 内存优化

5.3.2 通信优化

5.3.3 模型优化

6. 生产环境部署

6.1 高可用架构

6.1.1 冗余配置

6.1.2 负载均衡

6.2 安全配置

6.2.1 网络隔离

6.2.2 反向代理 + 认证

6.3 监控与告警

6.3.1 Prometheus + Grafana

6.3.2 日志管理

7. 故障排查

7.1 常见问题

7.1.1 节点无法发现

7.1.2 RDMA 初始化失败

7.1.3 内存不足（OOM）

7.1.4 推理速度慢

7.2 日志分析

7.2.1 关键日志位置

7.2.2 调试模式

8. 实战案例

8.1 案例一：搭建 4 节点 Qwen3-235B 集群

8.2 案例二：Jeff Geerling 的 Mac Studio 集群

9. 与其他方案对比

9.1 vs. NVIDIA GPU 集群

10. 未来展望

10.1 技术演进

10.2 exo 路线图

10.3 应用场景扩展

11. 总结

附录

B. 配置脚本