AMD AI Max+ 395 CPU 本地大模型推理性能评测报告

AMD AI Max+ 395 CPU 本地大模型推理性能评测报告

引言

近年来,随着人工智能(AI)大模型在自然语言处理、代码生成及知识问答等领域的广泛应用,硬件平台的计算性能面临着前所未有的挑战。为了深入探索新一代AI推理硬件的潜力,我们针对搭载AMD AI Max+ 395 CPU的零刻GTR9迷你主机进行了一系列严格的大模型推理速度测试。

本次评测旨在分析不同参数规模的模型在本地环境下的实际运行表现。这些数据不仅能为开发者和AI爱好者选择合适的硬件提供决策依据,也为DFRobot未来可能推出的基于AMD AI Max+ 395 CPU的单板计算机(SBC)提供了关键的性能参考。

测试配置

  • 硬件平台: 零刻 (MINISFORUM) GTR9 迷你主机
  • 核心组件: AMD AI Max+ 395 CPU
  • 任务类型: 本地大语言模型推理
  • 性能指标: Tokens/s (每秒生成Token数) — 该数值越高,代表推理速度越快。
测试问题集

为了全面评估模型性能,我们设计了涵盖多种任务类型的标准化问题:

  1. 综合能力: “你是谁?请详细介绍一下你能干什么。”
  2. 知识问答: “作为专业人工智能专家,请告诉我如何学习深度学习?”
  3. 数学计算: “如果A+B=12, A-B=10,则A的值是?”
  4. 自然语言理解: “识别句子‘我将会在明天早上的8点到湖北黄陂的森林公园’中的所有地名。”
  5. 代码生成: “请使用Python编写一个贪吃蛇游戏。”

测试平台与方法

我们在两大主流推理框架下分别进行了测试,以评估不同软件环境下的性能差异。

  • 推理框架:
    • Ollama
    • LM-Studio
  • 参评大模型:
    • deepseek-r1:70b
    • qwen3 系列(32b / 30b / 14b / 8b)
    • gpt-oss(120b / 20b)

性能指标为 Tokens/s(每秒生成Token数) ——数值越高,代表推理速度越快。

性能测试结果

1. Ollama 框架推理速度

在此框架下,我们记录了各模型针对五个标准问题的推理速度,结果如下:

图1. 使用Ollama推理gpt-oss:20b模型测试

表1. 使用Ollama推理大模型的速度测试结果 (Tokens/s)

模型\题目序号12345平均速度
deepseek-r1:70b4.584.254.534.484.294.43
qwen3:32b9.368.658.899.428.548.97
qwen3:14b20.0418.7719.7120.4018.4219.47
qwen3:8b32.0229.2231.2031.7925.4229.93
gpt-oss:120b30.9529.5229.8432.3831.5230.84
gpt-oss:20b42.6941.0244.0343.4041.6942.57
qwen3:30b49.8144.0057.6646.7946.3848.93

2. LM-Studio 框架推理速度

图2. 使用lLM-Studio推理gpt-oss:120b模型测试

切换至LM-Studio后,各模型的性能表现普遍得到提升。

表2. 使用LM-Studio推理大模型的速度测试结果 (Tokens/s)

模型\题目序号12345平均速度
deepseek-r1:70b5.114.895.074.934.834.97
qwen3:32b10.429.4610.6210.139.9510.12
qwen3:14b22.9921.2521.5723.0619.6221.70
qwen3:8b33.6335.1937.0637.5236.3935.96
gpt-oss:120b41.6740.7044.7342.6540.5842.07
gpt-oss:20b60.2259.7263.3260.5958.8560.54
qwen3:30b66.4464.0174.4671.3567.2468.70

分析与结论

1. 推理框架对性能影响显著

对比两组数据可见,同一模型在LM-Studio中的推理速度普遍优于Ollama。例如,qwen3:30b 模型在Ollama下的平均速度为 48.93 Tokens/s,而在LM-Studio下则跃升至 68.70 Tokens/s,性能提升显著。这表明软件优化是发挥硬件潜能的关键。

2. 大参数模型展现出乎意料的可用性

传统观念认为超大参数模型难以在消费级硬件上运行。然而,gpt-oss:120b 在这台迷你主机上依然能达到 42 Tokens/s 以上的流畅表现,证明了AMD AI Max+ 395 CPU在处理超大模型时具备相当的实用价值。

3. 中等规模模型实现性能与效率的最佳平衡

qwen3:30b 在本次测试中脱颖而出,它在速度和模型能力之间取得了极佳的平衡,尤其适合需要快速响应且任务多样化的AI应用场景。

4. CPU架构天然适配MoE模型

AMD AI Max+ 395 CPU采用CPU/GPU共享内存的统一内存架构(UMA),这种设计天然适合运行混合专家(MoE)模型(如gpt-oss系列、qwen3:30b)。MoE模型虽然总参数量庞大,但每次推理仅激活部分"专家"参数,非常契合这种大容量内存但绝对算力相对有限的硬件。相比之下,对于参数密集的传统稠密模型(如deepseek-r1:70bqwen3:32b),由于需要更高的绝对算力,该处理器的集成显卡则稍显吃力。

5. AMD AI Max+ 395 CPU性能亮眼

与以往的主流移动平台相比,这款CPU在本地AI推理性能上实现了质的飞跃,为边缘计算、离线AI应用等场景提供了强有力的硬件新选择。

对DFRobot社区的启示

DFRobot作为在单板计算机(SBC)、AI边缘计算和开源硬件领域的创新者,此次测试结果意义非凡。若未来DFRobot推出基于AMD AI Max+ 395 CPU的单板计算机,将其强大的本地AI推理能力与DFRobot成熟的模块化传感器生态(如Gravity系列)相结合,将催生出更多实时、智能的物联网与机器人应用:

  • AI教育领域: 学生可以直接在教室的SBC上运行大语言模型,实现交互式、沉浸式的编程与AI学习体验。
  • 机器人项目: 赋予机器人本地化的自然语言理解与决策能力,摆脱对云端服务的依赖,响应更迅速。
  • 智慧农业与环境监测: 结合传感器数据,利用本地AI模型进行即时分析和预警,实现对现场环境的快速响应。

总结

本次基于零刻GTR9迷你主机的评测充分展示了 AMD AI Max+ 395 CPU 在本地大模型推理方面的强劲性能与广阔应用前景。对于DFRobot社区的用户和开发者而言,这意味着一个激动人心的可能性:未来将有机会在DFRobot的单板计算机上,享受到媲美桌面级PC的本地AI推理体验。

如果你期待在DFRobot的硬件平台上探索大模型的无限可能,敬请持续关注官方的产品动态与社区讨论。

Read more

论文阅读笔记(一):《深度学习在自主导航中的应用与方法最新进展:全面综述》

论文阅读笔记(一):《深度学习在自主导航中的应用与方法最新进展:全面综述》

最近想要学习一下关于AI的知识,准备读一个综述《RECENT ADVANCEMENTS IN DEEP LEARNING APPLICATIONS AND METHODS FOR AUTONOMOUS NAVIGATION: A COMPREHENSIVE REVIEW》,并将学习内容记录在此,本笔记主要内容为记录并梳理文献中介绍的基础神经元网络部分,欢迎大家讨论并批评指正。 Artiffcial Neuron(人工神经元) 文献中提到,人工神经元是一个数学函数,用于模拟生物神经元的行为。它接收一个输入信号x,这个信号被一个权重w加权,并加上一个偏置b,然后通过一个激活函数 f来产生输出信号y。 上图展示了一个神经元的结构:它有多个输入,对应多个权重 。这些加权输入在传输函数(通常是求和函数Σ)中合并,然后通过激活函数ϕ产生最终的输出Y 神经网络就是将这些单个的神经元以不同的方式连接起来组成的层级结构(例如,一个神经元的输出可以作为另一个神经元的输入)。通过调整神经元之间的连接权重,神经网络可以学习并模拟复杂的非线性关系,从而实现模式识别、决策等功能,是深度学习的基础。

GENSE:基于分层建模的生成式语音增强语言模型方法(生成式语音增强论文阅读)

GENSE:基于分层建模的生成式语音增强语言模型方法(生成式语音增强论文阅读)

论文基本信息 标题: GenSE: Generative Speech Enhancement via Language Models using Hierarchical Modeling 作者: Jixun Yao, Hexin Liu, Chen Chen, Yuchen Hu, EngSiong Chng, Lei Xie (Northwestern Polytechnical University, Nanyang Technological University) 发表: ICLR 2025 (arXiv:2502.02942) 领域: 语音增强、语言模型、生成式建模 GenSE 的模型由三部分组成: 1.SimCodec:一个神经语音编解码器,用于将语音信号压缩为离散声学 token,并通过解码器从这些 token

【AI】——SpringAI通过Ollama本地部署的Deepseek模型实现一个对话机器人(二)

【AI】——SpringAI通过Ollama本地部署的Deepseek模型实现一个对话机器人(二)

🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大三学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门专栏:🎇【MySQL,Javaweb,Rust,python】 🎈热门专栏:🎊【Springboot,Redis,Springsecurity,Docker,AI】  感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持!❤️ 目录 🎈Java调用Deepseek  🍕下载Deepseek模型  🍕本地测试  🍕Java调用模型 🎈构建数据库  🍕增强检索RAG  🍕向量数据库  🍕Springboot集成pgvector 🎈chatpdf 🎈function call调用自定义函数 🎈多模态能力 🎈Java调用Deepseek 本地没有安装Ollama、Docker,openwebUI,可以先学习一下这篇文章:【AI】——结合Ollama、Open WebUI和Docker本地部署可视化AI大语言模型_ollma+本地大模型+open web ui-ZEEKLOG博客