MetaLlama 大模型系列介绍与本地部署指南

MetaLlama 大模型系列介绍

LLaMA 1 与 LLaMA 2 概述

LLaMA (Large Language Model Meta AI) 是由 Meta 开发的基础语言模型集合。参数范围从 7B 到 65B，在数万亿个 Token 上训练。研究表明，仅使用公开可用的数据集即可训练出最先进的模型，无需依赖专有数据。

LLaMA 2 是后续版本，参数规模扩展至 70B。其中 LLaMA 2-Chat 经过微调，专门针对对话用例优化。在大多数基准测试中，其表现优于开源聊天模型，且在有用性和安全性的人工评估中，被视为闭源模型的有力替代品。

Code Llama 模型

Code Llama 是基于 LLaMA 2 的大型代码语言模型系列。它在开放模型、填充功能、对大输入上下文的支持以及编程任务的零样本指令跟踪能力方面提供先进性能。

主要变体包括：

基础模型 (Code Llama): 通用代码生成。
Python 专业化 (Code Llama - Python): 针对 Python 任务优化。
指令跟随模型 (Code Llama - Instruct): 遵循自然语言指令进行代码生成。

每个模型都有 7B、13B 和 34B 参数版本。所有模型均在 16k 个标记序列上进行训练，并在最多 100k 个标记的输入上显示出改进。7B 和 13B 版本支持基于周围内容的填充（Infilling）。

LLaMA 模型列表

访问与授权

申请通过后，在 Hugging Face 上如果邮箱一致，会提示已经授权。用户需遵守相应的许可协议，特别是关于代码生成功能的输出可能受第三方许可约束。

部署方案概览

使用 LLaMA 模型主要有以下几种方式：

官方 API: 通过云服务商提供的接口调用。
本地推理库: 如 llama.cpp、ollama。
框架集成: 使用 langchain 或 hugging face transformers。

llama.cpp 部署

llama.cpp 是 Facebook LLaMA 模型的 C/C++ 移植版本。它显著降低了硬件要求，适合在个人电脑上运行与测试。

安装与编译

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

对于 macOS M1/M2 芯片，构建时需要指定 Metal 加速参数：

CMAKE_ARGS="-DLLAMA_METAL=on" make

模型转换与量化

为了降低资源消耗，通常将原始权重转换为 GGUF 格式并进行量化（如 Q4_0, Q8_0）。

# 获取原始 LLaMA 模型权重并放置于 ./models 目录
# 此步骤可省略，直接下载他人转换好的量化模型

MetaLlama 大模型系列介绍与本地部署指南