Meta 开源大模型 LLaMA2 部署指南
1. 前置准备
在开始部署之前,请确保您的开发环境满足以下要求:
- 操作系统:Linux (推荐 Ubuntu 20.04+) 或 macOS。
- 硬件:NVIDIA GPU (显存建议至少 8GB,7B 模型推荐 16GB+ 以获得流畅体验)。
- 软件环境:
- Python 3.8 或更高版本。
- PyTorch (支持 CUDA 版本)。
- Git。
- Conda (可选,用于隔离环境)。
2. 获取模型权限与下载
LLaMA2 模型并非完全公开,需要申请访问权限。
2.1 申请访问
访问 Meta 官方模型申请页面提交申请。注意申请时有地区限制,建议选择非受限国家/地区以提高通过率。申请成功后,您将收到一封包含下载 URL 的邮件。
2.2 克隆仓库
使用 Git 克隆官方提供的推理仓库:
git clone https://github.com/facebookresearch/llama
进入项目目录并赋予下载脚本执行权限:
cd llama
chmod +x download.sh
2.3 下载模型文件
运行 download.sh 脚本,输入邮件中收到的 URL,并根据提示选择要下载的模型版本(如 7B, 13B, 70B)。
./download.sh
脚本将自动下载 License、Policy、Tokenizer 以及模型权重文件。下载完成后,目录结构应包含 llama-2-7b 文件夹及 tokenizer.model 等文件。
3. 环境安装与配置
确保处于具有 PyTorch 和 CUDA 支持的 Conda 环境中。进入 llama 目录安装依赖包:
pip install -e .
此命令会读取 requirements.txt 并安装必要的依赖库。
4. 运行文本补全任务
使用 torchrun 启动分布式训练脚本进行文本补全测试。假设模型文件位于 models/llama-2-7b 目录下:
torchrun --nproc_per_node 1 ./example_text_completion.py \
--ckpt_dir ../models/llama-2-7b/ \
--tokenizer_path ../models/llama-2-7b/tokenizer.model \
--max_seq_len 512 \
--max_batch_size 6
参数说明:
--ckpt_dir:模型检查点目录路径。--tokenizer_path:分词器模型路径。--max_seq_len:最大序列长度,影响上下文窗口大小。--max_batch_size:批处理大小,根据显存大小调整。
示例输出:
> initializing model parallel size
> initializing ddp size
> initializing pipeline size
Loaded seconds
I believe the meaning life
> be happy. I believe we are all born the potential be happy...


