引言
近年来,大模型被广泛应用于各行各业。针对本地化部署需求,我们可以通过 Docker Desktop 实现轻量化 Frozen Model(冻结模型)的部署。对于持有多个 PC 的用户,还可结合 Tailscale 实现内网异地的分布式模型访问。
1. 下载与安装 Docker Desktop
进入 Docker 官网选择 AMD64 版本进行下载。安装包运行后直接点击 OK 即可,无需改动勾选项,安装完成后重启电脑。
2. 安装 WSL(必须)
正常安装 Docker Desktop 会触发 WSL 自动安装,但可能失败,建议手动安装:
- 访问 WSL 发布页面,找到 x86 版本下载。
- 运行 msi 文件自动安装。
- 安装好后重启 Docker。
3. 安装 Ubuntu
以管理员身份打开 CMD 输入以下命令:
wsl --install Ubuntu
注:版本不一定非要用 22.04,可根据实际情况调整。若进度条卡在 70% 左右,可新开一个命令行窗口刷新状态,通常此时已安装完毕。
若遇到特定错误提示,可先退出再次进入,系统会自动使用 root 操作。在 Docker 设置中找到 Resource -> WSL,开启对 Ubuntu 的集成并重启 Docker。
4. 测试连通性
在 Ubuntu 终端中执行以下指令测试 Docker 是否可用:
docker run hello-world
输出系统和 Docker 相关信息即表示成功。若遇到拉取镜像错误,可尝试备份并删除 /root/.docker/config.json 文件后重试。
测试 GPU 是否可用,输入相关指令查看显卡信息,出现显卡信息说明跑通。
5. 切换普通用户
创建普通用户(例如 lmclient),设置密码,并将用户加入 sudo 组和 docker 组:
sudo groupadd -f docker
usermod -aG docker lmclient
newgrp docker
验证是否有 sudo 权限及 Docker 是否能正常使用。
6. 显存与模型适配对照表
在正式拉取大模型之前,请根据实际硬件显存大小选择需要拉取的模型。
7. 拉取 LLM(语言大模型)
在 WSL 控制台切到 lmclient 用户,创建虚拟环境防止安装混乱:
python3 -m venv qwen
source qwen/bin/activate
手动在 D 盘建立文件夹(models)用于存储 Qwen-7B-Instruct 等模型。为防止网络问题,建议从 Hugging Face 手动下载模型文件放入指定文件夹。
安装 torch、推理依赖和 bit 量化包:
pip install torch transformers bitsandbytes
环境自检后拉取本地 Qwen2.5-7B-Instruct 确认成功。
8. 本地测试 LLM
编写 Python 脚本(如 test-4bit.py)进行测试。本质上是文件位置前面加/mnt 路径。运行指令调用模型进行推理。
9. Docker 联动部署
新建文件夹作为服务器部署基地,放入 server.py、Dockerfile 和 docker-compose.yml 三个文件。
启动 Docker 容器构建服务,等待端口分配完成(通常为 8000)。在主机浏览器打开网址,显示 FastAPI 界面说明部署成功。
10. 内网穿透测试
为实现多人异地访问,采用 Tailscale 进行测试。在同一账号下的不同 PC 上安装 Tailscale 并登录,实现隧道传输。
在客户端命令行终端 ping 服务端 IP,确保可达。可编写 Python 脚本维护对话记忆 JSON 文件,以便模型在断连后重新连接时保留上下文。


