多台Macmini利用EXO搭建分布式AI集群提高deepseek -r1:14b推理能力方案分享(实测可用)

多台Macmini利用EXO搭建分布式AI集群提高deepseek -r1:14b推理能力方案分享(实测可用)

为什么用MacMini而不是Nvidia系列的卡?

统一内存:CPU和GPU的“共享充电宝”

传统显卡(比如NVIDIA RTX 4090)的显存最高只有24GB,而一台顶配Mac Mini能塞下64GB的统一内存——CPU和GPU共用同一块内存池,不用来回搬运数据。这就好比把厨房和餐厅打通,厨师(GPU)和传菜员(CPU)再也不用跑来跑去,上菜速度直接翻倍!

MLX框架

苹果在2023年推出了专为自家芯片优化的机器学习框架MLX,号称能榨干M系列芯片的每一滴性能。实测中,MLX跑Llama 3模型的生成速度比PyTorch快30%,甚至让Mac Mini单挑高端显卡也不虚!

功耗超级低:五台机器才用28瓦?

油管一博主实测发现,五台Mac Mini待机时总功耗仅28瓦,全速运行也才200瓦出头。对比之下,一块RTX 4090显卡满载就要450瓦——这电费差距,长期运行成本得高多少!!!

EXO基本原理

关键组件

  1. 分片管理:EXO 将 AI 模型划分为可管理的块。
  2. 智能分区:系统根据每个设备的能力找出分配任务的最佳方式。
  3. gRPC 通信:设备使用这种高速协议相互通信。

环形拓扑:数据以环形流动,每个设备在传递之前处理其部分。

image.png

任务如何在网络中流动

  1. 您提问:向 EXO 网络发送提示。
  2. 任务分配:系统将您的请求分配到可用设备上。
  3. 处理:每个设备在模型的各自部分上工作。

结果汇编:一个设备收集所有部分并组装最终答案。

在这里插入图片描述

实践:M1 16g + M4 16g 利用EXO搭建AI集群

安装Python

如果您的本地电脑没有安装python,请去以下地址安装python

 https://www.python.org/downloads/macos/ 

官方要求如下:

  • Python>=3.12.0 是必需的,因为以前版本中的 asyncio 存在问题
  • 对于支持 NVIDIA GPU 的 Linux(仅限 Linux,如果不使用 Linux 或 NVIDIA,请跳过):
    • NVIDIA 驱动程序 - 使用nvidia-smi
    • CUDA 工具包 - 从 NVIDIA CUDA 指南安装,使用nvcc --version

cuDNN 库 - 从 NVIDIA cuDNN 页面下载,按照以下步骤验证安装
我使用3.12.9测试是没有问题。

PixPin_2025-03-08_12-02-55.png


由于大部分包都是国外的,所以需要再配置一下镜像文件

pip3 config set global.extra-index-url "https://pypi.tuna.tsinghua.edu.cn/simple https://mirrors.huaweicloud.com/repository/pypi/simple"

安装MLX

pip3 install mlx -i https://pypi.tuna.tsinghua.edu.cn/simple 

安装使用EXO

安装项目和依赖
git clone https://github.com/exo-explore/exo.git cd exo pip3 install -e .# alternatively, with venvsource install.sh 

下载好之后可以直接拷贝到另一台电脑上,不需要再重复下载了。

多设备启动exo

设备1:

exo 

设备2:

exo 

与其他分布式推理框架不同,exo 不使用主从架构。相反,exo 设备以p2p(点对点)的方式连接。只要设备在网络中的某个位置连接,就可以用来运行模型,使用起来非常简单方便。

使用exo

exo 提供了一个与 ChatGPT 兼容的 API,以运行模型。只需在您的应用程序中进行一行更改即可使用 exo 在您自己的硬件上运行模型。例如:

curl http://localhost:52415/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "llama-3.2-3b", "messages": [{"role": "user", "content": "What is the meaning of exo?"}], "temperature": 0.7 }'

还可以用一个类似 ChatGPT 的 WebUI(由 tinygrad tinychat 提供支持)
http://localhost:52415

测试EXO

前提

设备清单:

  • m1 macmini 16+256g
  • m4 macmini 16+256g
  • 一根千兆网线互联
    测试环境:
  • ollama平台
  • deepseek r1:14b模型
  • 问题:蓝牙耳机坏了应该看牙科还是耳科?
单台主机性能

由图可以看到单台m4 mac的性能大约是28tokens/s,运算速度是8.52TFLOPS(每秒所执行的浮点运算次数)

PixPin_2025-03-08_12-19-54.png
集群的性能

由图可以看到两台mac的性能大约是62.5tokens/s,运算速度是13.10TFLOPS(每秒所执行的浮点运算次数),由此可以得出一个基本结论:利用exo使两台mac互联,推理能力可以线性增加

PixPin_2025-03-08_12-26-05.png

附件

项目源码及环境

通过网盘分享的文件:exo
链接: https://pan.baidu.com/s/1nKXngRRNhbo6tHnZu0GOHQ?pwd=9dc8
提取码: 9dc8

下面是实际应用的项目:
https://yiyongai.cn/

参考资料

https://github.com/exo-explore/exo?tab=readme-ov-file
https://github.com/ml-explore/mlx
https://www.youtube.com/watch?v=GBR6pHZ68Ho&t=2s

Read more

【福利教程】一键解锁 ChatGPT / Gemini / Spotify 教育权益!TG 机器人全自动验证攻略

想要免费使用 ChatGPT 教师版(直至 2027 年)?想白嫖 Gemini Advanced 一年?还是想以学生优惠价订阅 Spotify? 无需繁琐的资料证明,现在只需要一个 Telegram 机器人,即可自动化完成 SheerID 身份认证,轻松解锁各类教育版专属福利! 🎁 你能获取哪些权益? 通过此机器人协助验证,你可以获取以下顶级服务的教育/学生权益: 1. 🤖 ChatGPT K-12 教师版 * 权益:美国 K-12 教育工作者专属福利,相当于 Plus 会员体验。 * 有效期:免费使用至 2027 年 6 月。 1. ✨ Gemini One Pro (教育版) * 权益:Google 最强 AI

By Ne0inhk

企业微信外部群“群机器人”主动推送消息实现指南

QiWe开放平台 · 开发者名片                 API驱动企微自动化,让开发更高效         核心能力:企微二次开发服务 | 多语言接入 | 免Root授权         官方站点:https://www.qiweapi.com(功能全景)         开发文档:https://doc.qiweapi.com(开发指南)         团队定位:专注企微API生态的技术服务团队        对接通道:搜「QiWe 开放平台」联系客服         核心理念:合规赋能,让企微开发更简单、更高效 在企业微信的生态开发中,针对外部群(包含微信用户的群聊)进行自动化消息推送,最稳健且合规的方式是利用群机器人(Webhook)。本文将从技术逻辑、核心步骤及注意事项三个维度,分享如何实现这一功能。 一、 实现逻辑简述 企业微信外部群机器人主要通过一个唯一的 Webhook 地址 接收标准的 HTTP POST 请求。开发者只需将构造好的

By Ne0inhk
共绩算力 RTX 5090 极速部署 Stable Diffusion WebUI:新手也能秒开 AI 绘图工作站

共绩算力 RTX 5090 极速部署 Stable Diffusion WebUI:新手也能秒开 AI 绘图工作站

还在为本地硬件不足跑不动 AI 绘图模型发愁?想快速拥有高性价比的 Stable Diffusion 绘图环境?今天给大家带来共绩算力 RTX 5090 部署 Stable Diffusion WebUI(增强版)的详细教程,全程零兼容冲突,从云主机配置到生成第一张 AI 画作仅需 30 分钟,步骤清晰可复现,无论是设计爱好者还是 AI 新手都能轻松上手! 目录 一、为什么选择共绩算力部署 Stable Diffusion? 二、环境准备:精准配置云主机 2.1 创建云主机实例 1.2 登录云主机终端 二、完整部署流程 2.1 环境清理与依赖安装 2.2 下载与配置Stable Diffusion WebUI

By Ne0inhk