Llama 3.1 介绍
2024 年 7 月 24 日,Meta 宣布推出迄今为止最强大的开源模型——Llama 3.1 405B。该模型支持上下文长度为 128K Tokens,增加了对八种语言的支持,号称第一个在常识、可操纵性、数学、工具使用和多语言翻译方面与顶级人工智能模型相媲美的模型。
当然,405B 新一代大模型所需要的算力成本也是巨大的,一般的中小型企业和个人需要慎重评估一下成本与产出是否值得应用。好在作为新版本发布的一部分,官方也同时推出全新升级的 Llama 3.1 70B 和 8B 模型版本。
本文将以 GPU 服务器为例,演示如何部署体验最新 Llama 3.1 8B 模型。
安装环境
硬件环境
- GPU 服务器:建议使用 NVIDIA GPU,民用卡 30、40 系列,商用卡 T4、V100、A10 等系列,至少 8G 以上显存。
- 服务器配置建议:最低配置为 8 核 CPU、32GB 内存、100GB 磁盘空间,5M 带宽。
本文以 Windows Server 2022 系统为例进行安装部署,搭配 Nvidia Tesla A10 单卡 24G 显存。
安装步骤
安装操作系统
选择 Windows 公共镜像,支持 Windows 2019 及以上版本,本教程我们选择 Windows 2022。
通过 VNC 登录实例,安装 GPU 驱动程序。
通过浏览器进入 NVIDIA 官网驱动下载地址,选择相应驱动下载进行安装,本教程我们选择 538.78,CUDA 版本为 12.2。
安装 Ollama 客户端
- 从 Ollama 官网下载最新版本安装包。
- 安装完毕会自动运行,右下角可以看到托盘图标。
- 打开 Windows PowerShell 或 CMD 命令行终端,输入
ollama命令,回车,即可显示 ollama 命令的使用帮助。
下载模型文件
加载模型
由于 A10 GPU 只有 24G 显存,因此我们安装 8b 模型版本。如果您的显存 80G 以上,那么推荐安装 70b 模型版本。
在命令行中输入如下命令,即可在线拉取模型:
ollama run llama3.1:8b
如果您的显卡非常好,其他两个模型的拉取命令如下:
ollama run llama3.1:70b
ollama run llama3.1:405b
出现 success 提示时,说明模型加载完成,可以跟大模型交流了。
更多模型支持
Ollama 不仅支持运行 llama3.1,实际上它支持更多的开源模型,详细教程见官方文档。
手动导入模型
如果您的网络情况不太好,在线下载模型进度缓存,官方也支持从其他渠道下载好的模型导入。详细参考官方文档,这里不做赘述。
模型应用
直接在控制台中对话
模型加载完成之后,出现如下提示,就可以直接跟大模型对话了。
配置远程访问
Ollama 启动的默认地址为 http://127.0.0.1:11434。我们通过设置环境变量 OLLAMA_HOST 来修改默认监听地址和端口,这往往对我们需要远程调用 API 时非常有用。同时,如果要在 open-webui 等 UI 面板中调用 API,需要为 Ollama 进行跨域配置后方可正常使用。
需要了解如下三个变量的用途:
| 变量名 | 值 | 说明 |
|---|---|---|
| OLLAMA_HOST | 0.0.0.0:8888 | 用于配置监听的 IP 和端口 |


