1、快速体验
1.1、下载 Ollama
首先得把 Ollama 装好,直接去官网 https://ollama.com/ 就能找到安装包。

1.2、下载模型
Ollama 内置了很多开源模型,带 thinking 标签的通常支持深度思考,vision 具备多模态视觉能力,而 tools 则能调用 MCP 工具。我们按需选择即可。

比如下载 gemma3,直接在命令行输入 ollama run <模型名>,它会自动先下载再启动,跑起来就能对话了。
ollama run gemma3
1.3、模型命名规则
你会发现模型版本很多,如果不加后缀,默认下载的是通用版。如果想更精细控制,就得看懂后面的参数组合:通常是 模型名 + 参数量 + 量化精度。
参数量越大性能越强,量化精度越高效果越好,但显存占用也会增加。比如 gemma3-12b-it-q4_K_M 代表:Gemma 第 3 代、120 亿参数、指令微调版、4-bit 量化(K-quant 中等规模)。

1.4、更改模型下载地址(可选)
默认模型存在系统盘,如果空间紧张,可以改到外接硬盘或其他位置,实现模型自由。
echo 'export OLLAMA_MODELS="/<文件夹路径>/models"' >> ~/.zshrc
source ~/.zshrc
1.5、基础使用
安装完模型后,掌握几条管理命令就够了。基本逻辑就是 ollama + 操作名称。
查看已下载的模型:
ollama list
运行模型(不存在会自动下载):
ollama run deepseek-r1:1.5b
删除模型:
ollama rm deepseek-r1:1.5b
想看运行时的速度和 Token 消耗细节,加上 --verbose 参数:






