LLaMA 3.1 模型本地部署与 Streamlit 聊天机器人实战
前言
LLaMA 3.1 是 Meta(Facebook 母公司)发布的系列大语言模型之一,属于 LLaMA(Large Language Model Meta AI)模型系列。该模型的目标是通过更高效的设计在保持性能的前提下,显著降低计算和资源需求。作为最新版本,它继承了前代的技术优势,并在架构、训练数据和推理能力上进行了改进。
LLaMA 3.1 的特点
LLaMA 3.1 主要具备以下四个特点:
- 规模较大且高效:参数量相比前代有所增加,但设计注重效率,能在较少资源下达到与更大模型相似的性能水平。
- 更多的训练数据:通过更广泛、丰富的语料库训练,覆盖更多领域信息,提升了回答问题、生成内容及自然语言理解的能力。
- 优化的推理性能:优化了推理算法和模型架构,减少了推理时间,提高了响应速度。
- 开源方式:继续采用开源模式,研究人员和开发人员可在此基础上进行进一步研究和开发,推动社区共同进步。
LLaMA 3.1 的优势
相较于 OpenAI 的 GPT 系列或 Google 的 PaLM 系列,LLaMA 系列模型的优势在于其高效性。它在保持较高的生成能力和理解能力的同时,资源消耗更低。通过对模型结构的精简和训练数据的多样化,LLaMA 3.1 在许多任务上能够提供接近甚至超过主流模型的性能。
部署流程
准备 GPU 环境
首先需要在云端或本地准备好 GPU 实例。登录控制台后,选择 GPU 云实例并创建。
- 付费类型:建议选择按量付费,根据需求选择配置(例如 NVIDIA L40S)。
- 硬件配置:GPU 和数据硬盘通常使用默认配置即可满足运行需求。
- 镜像框架:选择 PyTorch 版本(如 2.4.0),设置密钥对后点击立即创建。
- 启动实例:等待实例状态变为'运行中'即表示创建成功。
登录与初始化
通过 JupyterLab 或 SSH 登录实例终端。确保环境中已安装 conda 用于管理 Python 环境。
如果首次使用 conda,需要先进行初始化:
conda init
执行完成后重新打开终端,然后创建新的虚拟环境:
conda create -n llama3 python=3.12
激活环境:
conda activate llama3
安装依赖与模型
安装 LLaMA 3.1 运行所需的依赖包。建议使用 pip 指定版本以确保兼容性:
pip install langchain==0.1.15
pip install streamlit==1.36.0
pip install transformers==4.44.0
pip install accelerate==0.32.1
接下来下载模型文件。这里以内网下载为例,实际使用时请替换为 HuggingFace 或其他官方源地址:
wget http://file.s3/damodel-openfile/Llama3/Llama-3.1-8B-Instruct.tar
解压模型文件:
tar -xf Llama-3.1-8B-Instruct.tar
构建聊天机器人
模型下载完成后,新建 llamaBot.py 文件,编写 Streamlit 交互代码。这段代码负责加载模型、处理对话历史并展示界面。
transformers AutoTokenizer, AutoModelForCausalLM
torch
streamlit st
st.title()
st.caption()
mode_name_or_path =
():
tokenizer = AutoTokenizer.from_pretrained(mode_name_or_path, trust_remote_code=)
tokenizer.pad_token = tokenizer.eos_token
model = AutoModelForCausalLM.from_pretrained(
mode_name_or_path,
torch_dtype=torch.bfloat16
).cuda()
tokenizer, model
tokenizer, model = get_model()
st.session_state:
st.session_state[] = []
msg st.session_state.messages:
st.chat_message(msg[]).write(msg[])
prompt := st.chat_input():
st.chat_message().write(prompt)
st.session_state.messages.append({: , : prompt})
input_ids = tokenizer.apply_chat_template(
st.session_state[],
tokenize=,
add_generation_prompt=
)
model_inputs = tokenizer([input_ids], return_tensors=).to()
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=)
generated_ids = [
output_ids[(input_ids):]
input_ids, output_ids (model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=)[]
st.session_state.messages.append({: , : response})
st.chat_message().write(response)
(st.session_state)


