SAM 3 开源大模型部署教程:Docker 镜像、Jupyter 与 Web 三模式
1. 为什么你需要 SAM 3——不只是分割,而是理解视觉内容
你有没有遇到过这样的问题:想从一张杂乱的街景图里快速抠出所有行人,或者从一段监控视频中持续追踪某个包裹?传统方法要么需要大量标注数据,要么得写一堆 OpenCV 规则,费时又难泛化。SAM 3 不一样——它不靠预设规则,而是像人一样'看懂'画面:你点一下、框一下,甚至只说一句'那个穿红衣服的人',它就能立刻识别、分割、跟踪。
这不是概念演示,而是已经能跑在你本地机器上的真实能力。SAM 3 是 Meta(Facebook)推出的统一基础模型,专为图像和视频中的可提示分割设计。它把检测、分割、跟踪三个任务融合进一个模型,支持文本提示(如'cat'、'bicycle')、点提示(单击目标区域)、框提示(拖拽包围目标)、掩码提示(粗略涂鸦)等多种交互方式。更关键的是,它不是只能处理静态图——视频中同一物体的跨帧一致性分割效果非常稳定,这对安防、电商、内容创作等场景来说,意味着开箱即用的生产力提升。
本文不讲论文公式,也不堆参数指标。我们直接带你走通三条最实用的部署路径:Docker 一键启动、Jupyter 交互调试、Web 可视化操作。无论你是刚接触 AI 的开发者,还是需要快速验证方案的产品经理,都能在 30 分钟内让 SAM 3 在你机器上真正'动起来'。
2. 环境准备:三步搞定基础依赖
在开始部署前,先确认你的系统满足最低要求。SAM 3 对硬件有一定要求,但远低于训练级模型——我们聚焦推理场景,所以重点在'能跑通'和'够流畅'。
2.1 硬件与系统要求
- GPU:推荐 NVIDIA 显卡(RTX 3060 及以上),显存≥8GB(视频处理建议≥12GB)
- CPU:4 核以上,主频≥2.5GHz
- 内存:16GB 以上(处理高清视频建议 32GB)
- 操作系统:Ubuntu 20.04/22.04(推荐),或 Windows 10/11(需 WSL2 环境)
- 软件依赖:Docker 24.0+、NVIDIA Container Toolkit(GPU 加速必需)
小贴士:如果你没有独立 GPU,也可以用 CPU 模式运行,只是图像处理约需 15-30 秒/张,视频处理会明显变慢。本文后续所有操作均以 GPU 环境为默认前提。
2.2 安装 Docker 与 NVIDIA 驱动
如果你尚未安装 Docker,请按官方文档执行(Ubuntu 示例):
# 卸载旧版本(如有)
sudo apt-get remove docker docker-engine docker.io containerd runc
# 安装依赖
sudo apt-get update
sudo apt-get install -y \
ca-certificates \
curl \
gnupg \
lsb-release
# 添加 Docker 官方 GPG 密钥
sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
# 设置稳定仓库
echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu \
stable" | /etc/apt/sources.list.d/docker.list > /dev/null
apt-get update
apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
systemctl docker
systemctl start docker
docker run hello-world

