MetaLlama 大模型介绍
LLaMA 是一个基础语言模型的集合,参数范围从 7B 到 65B。我们在数万亿个 Token 上训练我们的模型,并表明可以专门使用公开可用的数据集来训练最先进的模型,而无需诉诸专有的和无法访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B)。
Llama 2 大模型介绍
我们开发并发布了 Llama 2,这是一组经过预训练和微调的大型语言模型 (LLM),其参数规模从 70 亿到 700 亿不等。我们经过微调的大语言模型(称为 Llama 2-Chat)针对对话用例进行了优化。我们的模型在我们测试的大多数基准上都优于开源聊天模型,并且根据我们对有用性和安全性的人工评估,可能是闭源模型的合适替代品。
Code Llama 模型
Code Llama 是一个基于 Llama 2 的大型代码语言模型系列,在开放模型、填充功能、对大输入上下文的支持以及编程任务的零样本指令跟踪能力中提供最先进的性能。我们提供多种风格来覆盖广泛的应用程序:基础模型 (Code Llama)、Python 专业化 (Code Llama - Python) 和指令跟随模型 (Code Llama - Instruct),每个模型都有 7B、13B 和 34B 参数。所有模型均在 16k 个标记序列上进行训练,并在最多 100k 个标记的输入上显示出改进。
Code Llama 主要模型列表
| Base Model | Python | Instruct | |
|---|---|---|---|
| 7B | codellama/CodeLlama-7b-hf | codellama/CodeLlama-7b-Python-hf | codellama/CodeLlama-7b-Instruct-hf |
| 13B | codellama/CodeLlama-13b-hf | codellama/CodeLlama-13b-Python-hf | codellama/CodeLlama-13b-Instruct-hf |
| 34B | codellama/CodeLlama-34b-hf | codellama/CodeLlama-34b-Python-hf | codellama/CodeLlama-34b-Instruct-hf |
申请与获取模型
申请地址通常通过 Hugging Face 进行。申请通过后,如果邮箱一致,会提示已经授权。在 Hugging Face 上下载模型权重后,需确保本地环境配置正确。
使用模型
主要有以下几种使用方式:
- 使用官方的 API
- 使用第三方封装 API(llama.cpp-python, ollama)
- 使用 LangChain
- 使用 Hugging Face 的 Transformers
官方示例运行
torchrun --nproc_per_node 1 example_text_completion.py \
--ckpt_dir llama-2-7b/ \
--tokenizer_path tokenizer.model \
--max_seq_len 128 --max_batch_size 4
注意: Windows 和 Mac 上基本跑不起来,因为 torchrun 依赖 NCCL。如果遇到 RuntimeError: Distributed package doesn't have NCCL built in 错误,建议改用其他推理方案。
llama.cpp
Port of Facebook's LLaMA model in C/C++。因为很多同学受限于个人电脑的环境,没法运行完整的 llama 模型。llama.cpp 提供了一个非常好的移植版本,可以降低电脑的硬件要求,方便个人电脑运行与测试。
下载与编译
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make


