带你玩转,开源模型Llama3.1

带你玩转,开源模型Llama3.1
在这里插入图片描述
你好,我是忆~遂愿,全网2w+粉丝,《遂愿盈创》社群主理人。
副业启航① | 遂愿盈创(对副业感兴趣免费可入,多种赚钱实战项目等你来,一起探寻副业快速变现的途径;以及对接互联网大厂商务合作,一起来搞点小外快,认识更多互联网大咖)
目前群里已经带很多小伙伴(大部分大学生)变现几百块啦,程序员搞副业有额外加成~
对副业感兴趣可+V : suiyuan2ying 拉你进群。

文章目录

在当今科技快速发展的背景下,大型语言模型(LLM)正逐渐成为深度学习领域的重要力量。它们不仅在自然语言处理(NLP)方面表现突出,还在计算机视觉(CV)、多模态学习和科学计算等领域显示出了巨大的潜力。

1 开源模型Llama3.1

开源LLM的生态系统非常活跃,出现了很多引人注目的模型,比如国际上的LLaMA和Alpaca,以及国内的ChatGLM、BaiChuan和InternLM(书生·浦语)等。

这些开源模型给开发者提供了在本地进行部署和定制的机会,帮助我们构建出具有独特价值的应用。

2024年7月23日,Meta公司推出了Llama 3.1系列,标志着开源模型发展的一个新阶段。

特别是Llama 3.1 405B模型,拥有惊人的4050亿参数和128K Tokens的上下文长度,成为Meta迄今为止最大的模型之一。

这个模型的训练过程涉及超过15万亿的Tokens和1.6万个H100 GPU,这在行业中是前所未有的。

与之前的模型相比,Llama 3.1在规模和性能上都有了显著提升,展现出在多种任务中的卓越灵活性。

在这里插入图片描述

作为Java开发工程师,这一系列模型的发布为我们带来了新的机会。我们可以利用这些强大的工具,构建更智能、更高效的系统。

这也给我们带来了新的挑战,比如如何优化这些模型以适应特定的应用场景,以及如何确保模型的可解释性和安全性。

随着技术的不断进步,我们有理由相信,未来将会有更多的创新和突破等待着我们去探索。

2 部署流程

(1)创建实例。

在这里插入图片描述

(2)进入创建页面后,首先在实例配置中选择付费类型,一般短期需求可以选择按量付费或者包日,长期需求可以选择包月套餐。

在这里插入图片描述

(3)选择GPU数量和需求的GPU型号,首次创建实例推荐选择:

  • 按量付费–GPU数量1–NVIDIA-GeForc-RTX-4090,该配置为60GB内存,24GB的显存(本次测试的LLaMA3.1 8B 版本至少需要GPU显存16G)。
  • 配置数据硬盘的大小,每个实例默认附带了50GB的数据硬盘,首次创建可以就选择默认大小50GB。
在这里插入图片描述

(4)继续选择安装的镜像,平台提供了一些基础镜像供快速启动,镜像中安装了对应的基础环境和框架,可通过勾选来筛选框架,这里筛选PyTorch,选择PyTorch 2.4.0。

在这里插入图片描述

(5)为保证安全登录,创建密钥对,输入自定义的名称,然后选择自动创建并将创建好的私钥保存的自己电脑中并将后缀改为.pem,以便后续本地连接使用。

在这里插入图片描述

(6)创建好密钥对后,选择刚刚创建好的密钥对,并点击立即创建,等待一段时间后即可启动成功!

在这里插入图片描述

3 登录实例

(1)等待实例创建成功,在 GPU云实例 中查看实例信息。

在这里插入图片描述

(2)平台提供了在线访问实例的 JupyterLab 入口,可以直接登录实例:

在这里插入图片描述

(3)登录后一般会在 /root/workspace 目录下,服务器各个路径具体意义如下:

  1. /:系统盘,替换镜像,重置系统时系统盘数据都会重置。
  2. /root/workspace:数据盘,支持扩容,保存镜像时此处数据不会重置。
  3. /root/shared-storage:共享文件存储,可跨实例存储。
    • 用户名:root
    • 远程主机域名或IP(这里使用host域名):实例页面获取
    • 端口号:实例页面获取
    • 登录密码或密钥(这里使用密钥):前面创建实例时保存到本地的密钥

SSH登录:SSH只是登录方式,工具可以是系统自带终端、Xshell、MobaXterm等。SSH登录一般需要以下 4 个信息:在实例页面获取主机host和端口号:

在这里插入图片描述

复制结果类似如下:

ssh -p 31729 [email protected] 

其中,gpu-s277r6fyqd.ssh.damodel.com 即主机host,31729 为端口号。

终端登录方式详见SSH登录与密钥对

4 部署LLama3.1

(1)使用 conda 管理环境,DAMODEL示例已经默认安装了 conda 24.5.0 ,直接创建环境即可:

conda create -n llama3 python=3.12
在这里插入图片描述

(2)环境创建好后,使用如下命令切换到新创建的环境:

conda activate llama3 
在这里插入图片描述

(3)继续安装部署LLama3.1需要的依赖:

pip installlangchain==0.1.15 pip installstreamlit==1.36.0 pip installtransformers==4.44.0 pip installaccelerate==0.32.1 
在这里插入图片描述

(4)安装好后,下载 Llama-3.1-8B 模型,平台已预制Llama-3.1-8B-Instruct模型,执行以下命令即可内网高速下载:

wget http://file.s3/damodel-openfile/Llama3/Llama-3.1-8B-Instruct.tar 

(5)下载完成后解压缩/Llama-3.1-8B-Instruct.tar

tar -xf Llama-3.1-8B-Instruct.tar 

5 使用教程

(1)模型下载好后,准备加载模型及启动Web服务等工作,新建 llamaBot.py 文件并在其中输入以下内容:

from transformers import AutoTokenizer, AutoModelForCausalLM import torch import streamlit as st # 创建一个标题和一个副标题 st.title("💬 LLaMA3.1 Chatbot") st.caption("🚀 A streamlit chatbot powered by Self-LLM")# 定义模型路径 mode_name_or_path ='/root/workspace/Llama-3.1-8B-Instruct'# 定义一个函数,用于获取模型和[email protected]_resourcedefget_model():# 从预训练的模型中获取tokenizer tokenizer = AutoTokenizer.from_pretrained(mode_name_or_path, trust_remote_code=True) tokenizer.pad_token = tokenizer.eos_token # 从预训练的模型中获取模型,并设置模型参数 model = AutoModelForCausalLM.from_pretrained(mode_name_or_path, torch_dtype=torch.bfloat16).cuda()return tokenizer, model # 加载LLaMA3的model和tokenizer tokenizer, model = get_model()# 如果session_state中没有"messages",则创建一个包含默认消息的列表if"messages"notin st.session_state: st.session_state["messages"]=[]# 遍历session_state中的所有消息,并显示在聊天界面上for msg in st.session_state.messages: st.chat_message(msg["role"]).write(msg["content"])# 如果用户在聊天输入框中输入了内容,则执行以下操作if prompt := st.chat_input():# 在聊天界面上显示用户的输入 st.chat_message("user").write(prompt)# 将用户输入添加到session_state中的messages列表中 st.session_state.messages.append({"role":"user","content": prompt})# 将对话输入模型,获得返回 input_ids = tokenizer.apply_chat_template(st.session_state["messages"],tokenize=False,add_generation_prompt=True) model_inputs = tokenizer([input_ids], return_tensors="pt").to('cuda') generated_ids = model.generate(model_inputs.input_ids,max_new_tokens=512) generated_ids =[ output_ids[len(input_ids):]for input_ids, output_ids inzip(model_inputs.input_ids, generated_ids)] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]# 将模型的输出添加到session_state中的messages列表中 st.session_state.messages.append({"role":"assistant","content": response})# 在聊天界面上显示模型的输出 st.chat_message("assistant").write(response)print(st.session_state)

(2)在终端中运行以下命令,启动 streamlit 服务,server.port 可以更换端口:

streamlit run llamaBot.py --server.address 0.0.0.0 --server.port 1024
需注意服务地址务必指定位0.0.0.0,否则无法通过浏览器访问

接下来我们需要通过丹摩平台提供的端口映射能力,把内网端口映射到公网;

进入GPU 云实例页面,点击操作-更多-访问控制:

在这里插入图片描述

点击添加端口,添加streamlit服务对应端口:

在这里插入图片描述

添加成功后,通过访问链接即即可打开LLaMA3.1 Chatbot交互界面,并与其对话:

在这里插入图片描述

Read more

社区活跃度飙升,Llama-Factory文档与教程持续更新中

Llama-Factory:让大模型微调真正“平民化” 在算力门槛不断抬高的今天,一个令人意外的趋势正在发生:越来越多的个人开发者、高校研究者甚至中小企业,开始独立训练和部署属于自己的7B、13B级别大语言模型。这背后并非因为人人都买得起A100集群,而是得益于像 Llama-Factory 这类开源工具的崛起——它正悄然改变大模型定制的技术范式。 试想这样一个场景:你手头只有一张RTX 4090显卡,却想为医疗行业微调一个专属问答模型。过去这几乎不可能完成,全参数微调动辄80GB以上的显存需求让人望而却步。但现在,只需几行配置、一个Web界面,配合QLoRA技术,就能在24GB显存内完成整个流程。这不是未来设想,而是今天无数团队正在实践的真实案例。 框架定位与设计哲学 Llama-Factory 的核心目标很明确:把复杂留给自己,把简单交给用户。它不是一个单纯的训练脚本集合,而是一套完整的大模型“生产线”系统。从数据导入到模型导出,每一步都被抽象成可配置模块,同时保留足够的灵活性供高级用户深度干预。 这种“开箱即用但不失掌控”的设计理念,体现在它的三层能力架构中: *

By Ne0inhk
openclaw使用llama.cpp 本地大模型部署教程

openclaw使用llama.cpp 本地大模型部署教程

openclaw使用llama.cpp 本地大模型部署教程 本教程基于实际操作整理,适用于 Windows WSL2 环境 全程使用 openclaw 帮我搭建大模型 一、环境准备 1. 硬件要求 显卡推荐模型显存占用GTX 1050 Ti (4GB)Qwen2.5-3B Q4~2.5GBRTX 4060 (8GB)Qwen2.5-7B Q4~5GBRTX 4090 (24GB)Qwen2.5-32B Q4~20GB 2. 安装编译工具(WSL Ubuntu) sudoapt update sudoaptinstall -y cmake build-essential 二、下载和编译 llama.cpp

By Ne0inhk

llama.cpp 多环境部署指南:从CPU到CUDA/Metal的高效推理实践

1. 环境准备:从零开始的硬件与软件栈 如果你和我一样,对在本地运行大模型充满好奇,但又不想被复杂的框架和庞大的资源消耗吓退,那 llama.cpp 绝对是你该试试的第一个项目。简单来说,它是一个用 C/C++ 编写的轻量级推理引擎,能把 Hugging Face 上那些动辄几十GB的模型,“瘦身”成几GB的 GGUF 格式文件,然后在你的电脑上——无论是 Mac 的 Apple Silicon 芯片,还是 Windows/Linux 的 CPU 或 NVIDIA GPU——流畅地跑起来。我最初接触它,就是想在不升级显卡的老电脑上体验一下 7B 参数模型的对话能力,结果发现它不仅能在 CPU 上跑,还能充分利用 GPU 加速,效果远超预期。

By Ne0inhk

Cursor、Windsurf、Kiro、Zed、VS Code(含 Copilot) 等 AI 编程工具的 定价对比

以 USD/月为单位,2025 最新市场信息:(Windsurf) 1) Cursor(基于 VS Code 的 AI IDE) 计划价格主要特征免费 Hobby$0基础 completions / 请求额度有限,试用高级功能两周 (Bito)Pro$20/月无限 completions、约 500 高速 AI 请求 (Windsurf)Teams$40/用户/月团队协作、管理功能 (Windsurf)Ultra$200/月大量 AI 请求额度 (Bito)Enterprise自定义企业级安全与支持 (Bito) 特点:AI 多行补全、上下文理解强、Pro

By Ne0inhk