使用 Ollama 本地部署 Llama 3.1 模型
在本地环境中使用 Ollama 工具部署 Meta 发布的 Llama 3.1 大模型的完整流程。内容涵盖硬件环境准备、Ollama 客户端安装、模型拉取与加载、远程访问配置及 API 调用方法,并提供了 Open WebUI 和 LobeChat 两种可视化界面的集成方案。通过该教程,用户可快速搭建私有化大模型服务,实现本地对话与开发测试。

在本地环境中使用 Ollama 工具部署 Meta 发布的 Llama 3.1 大模型的完整流程。内容涵盖硬件环境准备、Ollama 客户端安装、模型拉取与加载、远程访问配置及 API 调用方法,并提供了 Open WebUI 和 LobeChat 两种可视化界面的集成方案。通过该教程,用户可快速搭建私有化大模型服务,实现本地对话与开发测试。

2024 年 7 月 24 日,Meta 宣布推出迄今为止最强大的开源模型——Llama 3.1 405B。该模型支持上下文长度为 128K Tokens,增加了对八种语言的支持,号称第一个在常识、可操纵性、数学、工具使用和多语言翻译方面与顶级人工智能模型相媲美的模型。
当然,405B 新一代大模型所需要的算力成本也是巨大的,一般的中小型企业和个人需要慎重评估一下成本与产出是否值得应用。好在作为新版本发布的一部分,官方也同时推出全新升级的 Llama 3.1 70B 和 8B 模型版本。
本文将以 GPU 服务器为例,演示如何部署体验最新 Llama 3.1 8B 模型。
本文以 Windows Server 2022 系统为例进行安装部署,搭配 Nvidia Tesla A10 单卡 24G 显存。
选择 Windows 公共镜像,支持 Windows 2019 及以上版本,本教程我们选择 Windows 2022。
通过 VNC 登录实例,安装 GPU 驱动程序。
通过浏览器进入 NVIDIA 官网驱动下载地址,选择相应驱动下载进行安装,本教程我们选择 538.78,CUDA 版本为 12.2。
ollama 命令,回车,即可显示 ollama 命令的使用帮助。由于 A10 GPU 只有 24G 显存,因此我们安装 8b 模型版本。如果您的显存 80G 以上,那么推荐安装 70b 模型版本。
在命令行中输入如下命令,即可在线拉取模型:
ollama run llama3.1:8b
如果您的显卡非常好,其他两个模型的拉取命令如下:
ollama run llama3.1:70b
ollama run llama3.1:405b
出现 success 提示时,说明模型加载完成,可以跟大模型交流了。
Ollama 不仅支持运行 llama3.1,实际上它支持更多的开源模型,详细教程见官方文档。
如果您的网络情况不太好,在线下载模型进度缓存,官方也支持从其他渠道下载好的模型导入。详细参考官方文档,这里不做赘述。
模型加载完成之后,出现如下提示,就可以直接跟大模型对话了。
Ollama 启动的默认地址为 http://127.0.0.1:11434。我们通过设置环境变量 OLLAMA_HOST 来修改默认监听地址和端口,这往往对我们需要远程调用 API 时非常有用。同时,如果要在 open-webui 等 UI 面板中调用 API,需要为 Ollama 进行跨域配置后方可正常使用。
需要了解如下三个变量的用途:
| 变量名 | 值 | 说明 |
|---|---|---|
| OLLAMA_HOST | 0.0.0.0:8888 | 用于配置监听的 IP 和端口 |
| OLLAMA_ORIGINS | * | 支持跨域访问,也可以指定特定域名,如:'baidu.com,hello.com' |
| OLLAMA_MODELS | C:\Users\Administrator.ollama | 模型文件较大,建议调整到数据盘目录下 |
Windows 修改环境变量如下:
0.0.0.0:8888 上,其他变量设置依次添加。ollama run llama3.1:8b
开启远程连接之后,您就可以远程调用 API 了,示例如下:
curl http://your_server_ip:8888/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "你好啊"
}'
流式输出功能同样支持。
上面的对话测试,我们都是通过命令行来进行交互的,当然肯定有可视化的 UI 界面,而且很多,这里介绍两个。
安装 官方给出了两种安装方式:
使用 Docker 安装。这个是官方推荐的安装方式,方便快捷。如果您使用的是 Linux 环境,可以通过 Docker 安装。
使用 pip 安装。 有两个注意点:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
使用
安装 详细安装过程不做赘述,参考官方文档。
使用

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online