AMD AI Max+ 395 CPU 本地大模型推理性能评测

综述由AI生成对搭载 AMD AI Max+ 395 CPU 的迷你主机进行本地大模型推理测试。使用 Ollama 和 LM-Studio 框架，评估了 deepseek-r1、qwen3 及 gpt-oss 系列模型的性能。结果显示 LM-Studio 推理速度普遍优于 Ollama。gpt-oss:120b 等大参数模型在消费级硬件上仍具备可用性。CPU 的统一内存架构（UMA）天然适配混合专家（MoE）模型，为边缘计算提供了新选择。

灰度发布发布于 2026/4/6更新于 2026/5/2228 浏览

引言

近年来，随着人工智能（AI）大模型在自然语言处理、代码生成及知识问答等领域的广泛应用，硬件平台的计算性能面临着前所未有的挑战。为了深入探索新一代 AI 推理硬件的潜力，我们针对搭载 AMD AI Max+ 395 CPU 的零刻 GTR9 迷你主机进行了一系列严格的大模型推理速度测试。

本次评测旨在分析不同参数规模的模型在本地环境下的实际运行表现。这些数据不仅能为开发者和 AI 爱好者选择合适的硬件提供决策依据，也为未来基于 AMD AI Max+ 395 CPU 的单板计算机（SBC）提供了关键的性能参考。

测试配置

硬件平台: 零刻 (MINISFORUM) GTR9 迷你主机
核心组件: AMD AI Max+ 395 CPU
任务类型: 本地大语言模型推理
性能指标: Tokens/s (每秒生成 Token 数) — 该数值越高，代表推理速度越快。

测试问题集

为了全面评估模型性能，我们设计了涵盖多种任务类型的标准化问题：

综合能力: '你是谁？请详细介绍一下你能干什么。'
知识问答: '作为专业人工智能专家，请告诉我如何学习深度学习？'
数学计算: '如果 A+B=12, A-B=10，则 A 的值是？'
自然语言理解: '识别句子'我将会在明天早上的 8 点到湖北黄陂的森林公园'中的所有地名。'
代码生成: '请使用 Python 编写一个贪吃蛇游戏。'

测试平台与方法

我们在两大主流推理框架下分别进行了测试，以评估不同软件环境下的性能差异。

推理框架:
- Ollama
- LM-Studio
参评大模型:
- deepseek-r1:70b
- qwen3 系列（32b / 30b / 14b / 8b）
- gpt-oss（120b / 20b）

性能指标为 Tokens/s（每秒生成 Token 数） ——数值越高，代表推理速度越快。

性能测试结果

1. Ollama 框架推理速度

在此框架下，我们记录了各模型针对五个标准问题的推理速度，结果如下：

表 1. 使用 Ollama 推理大模型的速度测试结果 (Tokens/s)

模型\题目序号	1	2	3	4	5	平均速度
deepseek-r1:70b	4.58	4.25	4.53	4.48	4.29	4.43
qwen3:32b	9.36	8.65	8.89	9.42	8.54	8.97
qwen3:14b	20.04

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

模型\题目序号	1	2	3	4	5	平均速度
deepseek-r1:70b	5.11	4.89	5.07	4.93	4.83	4.97
qwen3:32b	10.42	9.46	10.62	10.13	9.95	10.12
qwen3:14b	22.99	21.25	21.57	23.06	19.62	21.70
qwen3:8b	33.63	35.19	37.06	37.52	36.39	35.96
gpt-oss:120b	41.67	40.70	44.73	42.65	40.58	42.07
gpt-oss:20b	60.22	59.72	63.32	60.59	58.85	60.54
qwen3:30b	66.44	64.01	74.46	71.35	67.24	68.70