硬件与前提
手上这台本子是 RTX 4060 笔记本显卡,8GB 显存,16GB 内存。想在上面跑一套本地 AI Agent 开发环境,目标是把 Docker、Dify 和 Ollama 串起来,全部离线可用。以下记录从零搭建的过程,附带一些选择和踩坑。
模型选择
硬件有限,不能无脑上大参数模型。试了几个,Qwen2.5‑Coder 7B 对中文友好,显存占用大概 7.5GB,刚好能跑。DeepSeek‑Coder V3 Small 逻辑更强,但我这边偶尔会爆显存。Llama 系列也是备选,看具体需求。如果你不确定哪款适合,可以去 AI 助手问一嘴,但最终还得自己跑跑看效果,体感比参数重要。
装好 Docker 和 Ollama
Docker Desktop 直接去官网下 Windows AMD64 版本就行,一路默认安装。
Ollama 官网有 Windows 安装包。默认装 C 盘,我不太想在系统盘堆模型文件,于是把模型目录改到 E 盘:
- 系统环境变量里新建
OLLAMA_MODELS,值填E:\OllamaModels。 - 装完后重启终端,敲
ollama --version确认命令可用。
把模型拉下来
qwen2.5‑coder:7b 用一条命令拉取:
ollama run qwen2.5-coder:7b
如果提示 Warning: could not connect to a running Ollama instance,说明后台服务没起来,需要手动双击 ollama app.exe 启动。之后再用 ollama list 可以看到已下载的模型。
几个常用操作:
ollama pull <模型名>:只下载不运行。ollama rm <模型名>:删掉不再需要的模型。
部署 Dify
克隆仓库,进入 docker 编排目录:
git clone https://github.com/langgenius/dify.git
cd dify/docker
然后复制一份环境变量模板,启动所有容器:
cp .env.example .env
docker-compose up -d
镜像下载会比较耗时,取决于网络,干点别的等着就好。
启动成功后,默认访问 http://127.0.0.1。我这边 80 端口被占,所以改成了 8090。需要动两个地方:
docker-compose.yaml里修改 nginx 服务的 ports 映射,比如"8090:80"。.env里把EXPOSE_NGINX_PORT也改成 8090,同时确保CONSOLE_API_URL和SERVICE_API_URL都带上正确端口和协议头,像http://127.0.0.1:8090。不然刷页面会报 URL 错误。
如果页面仍然加载失败,先强刷(Ctrl+F5)或开无痕模式,再不行就看 API 容器日志:
docker-compose logs -f api
连不上数据库这一类问题一般能从日志里直接看出来。
把 Ollama 接入 Dify
先注册一个管理员账号登录。进入「设置 → 模型供应商」,添加 Ollama。填几项:
- 模型类型:LLM


