![图片]
苹果提供了这台 Mac Studio 集群,用于测试 macOS 26.2 的新功能——基于雷电接口的 RDMA 技术。最便捷的测试方式是使用开源私有 AI 集群工具 Exo 1.0。通过 RDMA 技术,这些 Mac 可以像共享一个巨型内存池般协同工作,从而显著提升大型 AI 模型等任务的运行效率。
我测试的这个内存总量达 1.5TB 的 Mac 集群,其成本略低于 4 万美元。说实话,我个人实在找不出花这笔钱的正当理由——这些 Mac Studio 是苹果借给我测试的。同时要感谢第三方厂商寄来了装载该集群的四立柱迷你机架。
记忆中上一次听到苹果与高性能计算 (HPC) 相关的趣闻,还要追溯到二十世纪初他们还在生产 Xserve 服务器的年代。
他们曾拥有名为 Xgrid 的专有集群解决方案…最终却黯然退场。几所大学搭建过这类集群,但始终未能真正流行,如今 Xserver 已成为遥远记忆。
不知是机缘巧合还是苹果的长期布局,M3 Ultra 版 Mac Studio 在本地 AI 模型运行方面找到了完美平衡点。随着 RDMA 技术支持将内存访问延迟从 300 微秒降至 50 微秒以内,集群现在能显著提升性能,尤其是运行大型模型时。
这些设备在创意应用和小规模科学计算领域同样表现出色,同时保持低于 250 瓦的功耗和近乎无声的运行状态。
底部两台 Mac 配备 512GB 统一内存和 32 个 CPU 核心,单台售价 11,699 美元。上方两台内存减半的机型则为 8,099 美元每台。
价格确实不菲。
但随着英伟达推出 DGX Spark 系统,AMD 发布 AI Max+ 395 方案(两者最大内存仅 128GB,相当于四分之一容量),我决定对这个集群进行全面测试。
迷你 Mac 机架
就在这些 Mac 电脑到货的前一天,第三方厂商适时地送来了一款名为 TL1 的新型四柱迷你机架。
![图片]
今年早些时候启动了迷你机架项目,其核心理念是让你既能享受机架式设备的优势,又能将其以适合桌面摆放或角落收纳的紧凑尺寸呈现。
目前除了这款 3D 打印外壳外,还没发现其他能将 Mac Studio 装入 10 英寸机架的解决方案,所以暂时只是把它们放在 10 英寸机架托盘上。
任何非 Pro 版 Mac 上架时最麻烦的就是电源键。Mac Studio 的电源键位于背部左侧的弧形表面上,这意味着机架解决方案必须设计特殊的触发方式。
这种开放式迷你机架设计让我可以伸手按到电源键,但操作时还得扶着 Mac Studio 机身,防止它从前面滑落!
好在 Studio 前置接口可以直接连接键盘和显示器:
![图片]
对于电源方面,很高兴苹果采用了内置电源设计。太多'小型'PC 之所以体积小,仅仅是因为它们把电源塞进了机箱外部的巨大砖块里。但这款产品并非如此,不过你必须处理苹果的非 C13 电源线(这意味着更难找到长度完美的线缆来减少需要管理的线束)。
![图片]
DGX Spark 在网络性能上优于苹果设备。它配备了大型矩形 QSFP 端口(如上图所示),这种插头既稳固耐用又便于插拔。
Mac Studio 配备 10Gbps 以太网接口,但其高速网络功能(实际吞吐量约 50-60Gbps)依赖雷电接口实现。即便使用每条售价 70 美元的高端苹果线缆,在多场景环境中这种复杂的插接系统也难以长期稳定工作。
现有 ThunderLok-A 技术通过微型螺丝固定线缆,但我不可能对借测的 Mac Studio 进行钻孔攻丝来验证其可行性。
另外据我所知,目前尚无雷电 5 交换机问世,这意味着无法将多台 Mac 接入中央交换机——必须实现所有设备间的点对点直连,导致线缆管理更加混乱。现阶段最多支持四台 Mac 交叉互联,但现有 Mac Studio 可能突破此限制(苹果宣称所有五个 TB5 端口均支持 RDMA)。
更核心的问题是:真的需要组建完整 Mac Studio 集群吗?单台性能已堪比四台顶配 DGX Spark 或 AI Max+ 395 系统,而集群管理本身就会带来诸多挑战。
M3 Ultra Mac Studio - Benchmark Tests
为辅助决策,进行了一系列基准测试,并将所有结果(比本篇博文提及的更全面)发布至开源项目 sbc-reviews。
现将 M3 Ultra Mac Studio 与以下设备进行对比:
- 搭载 GB10 的戴尔 Pro Max(类似英伟达 DGX Spark,但散热更优)
- Framework 桌面主板(配备 AMD AI Max+ 395 芯片)
![图片]
首先来看 Geekbench 测试。搭载两代前 CPU 核心的 M3 Ultra 芯片,在单核与多核性能表现上均超越另外两款竞品(在更适合多核 CPU 测试的 Geekbench 5 中优势更为明显)。
![图片]
切换到双精度 FP64 测试,经典 TOP500 HPL 基准测试中,M3 Ultra 是首款突破 1 Tflop FP64 性能的小型台式机。其性能几乎是英伟达 GB10 的两倍,而 AMD 的 AI Max 芯片则被远远甩在后面。
![图片]
CPU 的效率也非常出色,不过自 A 系列芯片以来,苹果的所有芯片一直如此。与此相关的是,这里的闲置功耗不到 10 瓦。


