Jetson Orin NX 部署 Ollama 与 Llama 3.2 实战指南
随着大语言模型(LLM)向边缘侧下沉,如何在资源受限的设备上高效运行推理成为关键。NVIDIA Jetson Orin NX 凭借 100 TOPS AI 算力和统一内存架构,为本地化部署提供了硬件基础。本文将基于 JetPack 5 (Ubuntu 20.04) 环境,演示如何从零搭建 Ollama + Llama 3.2 的 GPU 加速推理平台。
注意: 尽管 Orin NX 算力强劲,但相比桌面级显卡,显存带宽和容量仍是瓶颈。部署时需合理选择模型量化等级,并管理好性能预期。
环境准备与系统检查
硬件与软件基线
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 设备型号 | Jetson Orin NX | Orin NX 16GB |
| 内存 | ≥8GB | 16GB |
| 存储 | ≥32GB | NVMe SSD 256GB+ |
| 系统 | JetPack 5.x | JetPack 5.1.2+ |
软件层面需确保 CUDA 11.4+ 及 cuDNN 8.6+ 已随 JetPack 安装完毕。对于模型存储,建议预留至少 4GB 空间用于加载量化后的 Llama 3.2 模型。
系统状态验证
安装前确认环境无误:
# 查看 L4T 版本
cat /etc/nv_tegra_release
# 查看系统信息
uname -a
lsb_release -a
# 检查 JetPack 组件
apt list --installed | grep nvidia-jetpack
GPU 监控:Jetson 使用 tegrastats 替代 nvidia-smi。
sudo tegrastats
sudo jetson_clocks --show
关注 GR3D_FREQ(GPU 频率)、RAM(内存占用)及 EMC_FREQ(内存带宽)。若磁盘空间紧张,优先将模型文件移至 NVMe SSD。
安装 Ollama(JetPack 5 专用版)
目录规划
为避免污染系统路径,建议采用用户目录隔离安装:
mkdir -p ~/apps/ollama/{bin,lib,tmp}
sudo mkdir -p /data/ollama/models
sudo chown $USER:$USER /data/ollama/models
# 或直接在用户家目录(空间充足时)
-p ~/.ollama/models

