LLaMA-Factory部署以及微调大模型

一、安装LLaMa-Factory

1.python环境安装

安装成功后,输入python能出现截图表示安装成功

2.CUDA和PyTorch安装

2.1 PyTorch安装

查看PyTorch与CUDA对应的版本,然后进行安装。PyTorch的管网地址:PyTorch

把网页往下拖能看到PyTorch和CUDA对应的版本。

我这里将要选择的CUDA版本是11.8。我自己试过CUDA12.6的版本,不知道为什么没有跑通,后面就直接把CUDA的版本选成11.8了。

在终端中输入截图中的指令:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

就会安装PyTorch,不翻墙的情况下安装比较慢,建议有条件的可以翻墙安装。因为我已经安装成功了,再来编写的该文章,结果如截图所示。

到此PyTorch安装结束。

2.2 CUDA安装

找到CUDA的历史版本。链接地址:CUDA Toolkit Archive | NVIDIA Developer

找到我们目标的安装包,下载安装。安装成功后在终端中输入:nvcc --version

如截图所示,cuda安装成功。

2.3 校验

校验下cuda和pytorch是否匹配成功

终端中输入:python

继续输入:import torch

继续输入:torch.cuda.current_device()

继续输入:torch.cuda.get_device_name(0)

继续输入:torch.__version__

如果出现什么异常错误,可能是环境没有处理好,还需自行检查。笔者前面遇到过下载cuda版本12.6以及对应的Tytorch,就遇到没有成功的状况,遂改用cuda版本为11.8

3. 下载LLaMa-Factory的git仓库

git clone https://github.com/hiyouga/LLaMA-Factory.git

下载完成后的截图:

在终端中进入刚下载好的LLaMa-Factory文件夹中

必须在该文件夹内输入指令:pip install -e '.[torch,metrics]'

安装一些必须的东西。安装结束后如截图所示。

验证安装是否成功。输入指令:llamafactory-cli version

如出现截图所示表示安装成功

二、下载模型

在魔塔社区中可以自行找个模型进行下载。笔者这里选这一个Qwen2.5-0.5B-Instruct模型进行下载。链接地址:魔搭社区

点击模型文件

选择下载模型

选择git下载。该模型的git下载url:git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git

下载完成后

三、部署大模型

启动llama-factory的webui,输入指令:llamafactory-cli webui

注意下:必须是在LLMa-Factory仓库中输入该指令。

启动后的界面

切换页面到能部署模型的页面

点击chat

模型名称从下拉列表中选择Qwen2.5-0.5B-Instruct

模型路径填写,刚刚下载好的模型。注意:模型名称和模型路径中的模型要是对应的。

填写好,进行加载模型。

加载成功后,就可以进行聊天了。

四、模型微调

4.1 生成训练的数据集

代码:

import json import random from faker import Faker def generate_thermal_dataset(output_path="thermal_dataset.json"): """生成智能家居温度调控指令数据集""" fake = Faker('zh_CN') # 定义数据生成模板组件‌:ml-citation{ref="1" data="citationList"} base_phrases = ["有点", "非常", "特别", "实在", "真的", "确实", "越来越", "稍微", "极其"] heat_verbs = ["热","炎热","火热","酷热","炽热","闷热","灼热","滚烫","炙热","沸热","炙烤","加热","升温","燥热","湿热","高温","暖热"] quantifiers = ["了", "啦", "啊", "呢", ""] dataset = [] for _ in range(2000): # 构造自然语言输入‌:ml-citation{ref="4" data="citationList"} phrase = random.choice(base_phrases) verb = random.choice(heat_verbs) quantifier = random.choice(quantifiers) input_text = f"我{phrase}{verb}{quantifier}" # 生成带逻辑的JSON输出‌:ml-citation{ref="3,5" data="citationList"} output_json = { "Device": "AirConditioner", "Status": "on" } # 构建完整数据项‌:ml-citation{ref="1,6" data="citationList"} dataset.append({ "instruction": "你是一个物联网数据处理专家,需要把自然语言指令转换为JSON结构化数据", "input": input_text, "output": json.dumps(output_json, ensure_ascii=False), }) # 保存数据集‌:ml-citation{ref="2" data="citationList"} with open(output_path, "w", encoding="utf-8") as f: json.dump(dataset, f, indent=2, ensure_ascii=False) print(f"数据集已生成:{output_path}") if __name__ == "__main__": generate_thermal_dataset() 

该代码会生成2000条训练数据。

运行代码的结果:

4.2 配置训练参数

找到llama-factory中的训练参数集的配置文件

data文件夹中的dataset_info文件。打开文件并配置。

我们在json字符串中再加入一组

配置完成后,我们在data文件夹中再新建一个train.json文件,用于保存生成出来的训练数据集。

在webui中配置上刚刚添加好的数据训练集

预览数据集

确定数据集后。进入设备管理器,禁用集成显卡,使用独立显卡进行训练

webui中点击,开始训练

可以看到已经开始训练

训练完成

看到log上面出现训练完毕,表示训练结束了。

4.3 合并导出

选择export

然后把这三个地方配置正确

点击开始导出就能合并导出微调好的模型了

4.4 加载合并后的模型

Read more

Docker 部署 OpenClaw 踩坑实录:Web UI 访问、飞书配对及自定义模型配置

最近在使用 Docker 部署 OpenClaw 时遇到了一些典型的环境与配置问题。为了方便大家排查,我将这几个核心问题的表现、解决思路以及如何接入公司自己配置的大模型节点进行了梳理。 一、问题一:安装成功但 Web UI 无法访问 1. 现象描述 * 终端提示安装成功,但在浏览器中访问http://127.0.0.1:18789 时,页面提示连接被重置。 * 使用具体的局域网 IP(如192.168.5.30:18789)访问时,同样提示无法连接或无法访问此网站。 2. 原因分析 * 在排除了代理服务器和系统防火墙的干扰后,根本原因在于 OpenClaw 核心网关的跨域访问(CORS)安全机制。 * 系统默认包含白名单配置,它的作用是告诉 OpenClaw 的核心网关:“只有从这些特定的网址(域名或IP)打开的控制台网页,才被允许连接我并下发控制指令”

Qwen3-32B镜像免配置实战:Clawdbot Web平台CPU/GPU混合部署指南

Qwen3-32B镜像免配置实战:Clawdbot Web平台CPU/GPU混合部署指南 1. 为什么你需要这个部署方案 你是不是也遇到过这样的问题:想快速用上Qwen3-32B这样强大的大模型,但一看到“编译环境”“CUDA版本”“模型分片”“显存分配”这些词就头皮发麻?更别说还要自己搭Web界面、配反向代理、调端口转发——光是看文档就花掉半天,真正跑起来可能要折腾两三天。 这次我们不走老路。Clawdbot Web平台提供了一套真正意义上的免配置混合部署方案:它能自动识别你机器上的CPU和GPU资源,智能分配Qwen3-32B的推理负载,不需要你手动改config、不用写Docker Compose、也不用查NVIDIA驱动兼容表。你只需要一条命令,5分钟内就能在浏览器里和320亿参数的大模型对话。 这不是概念演示,而是已在实际业务中稳定运行的生产级方案。背后的关键在于——它把Ollama的轻量API服务、Clawdbot的前端交互层、以及一个精巧的内部代理网关,打包成了一个开箱即用的镜像。你甚至不需要知道Ollama是什么,只要会复制粘贴命令,就能拥有自己的私有Qwen

目前最流行的 Rust Web 框架是什么?全面对比与选型建议(2026最新版)

Rust 这几年在后端领域的热度持续攀升,从系统编程语言逐渐扩展到 Web 开发领域。很多开发者在学习或选型时都会问: 目前最流行的 Rust Web 框架到底是谁? 今天我们就从生态成熟度、GitHub Star 数量、社区活跃度、性能表现和企业使用情况几个维度,系统分析当前主流 Rust Web 框架。 一、当前最流行的 Rust Web 框架 综合社区活跃度和实际使用情况来看: 目前最流行的 Rust Web 框架是 —— Axum 当然,Actix Web 仍然拥有大量历史用户,而 Rocket 在易用性方面也非常出色。 下面逐个介绍。 🥇 一线框架:Axum(当前热度最高) Axum 是什么? Axum 是基于 Tokio 异步运行时和 Tower 生态构建的现代

从零开始:在本地搭建一个带知识库的 AI 助手(Ollama + Open WebUI)

从零开始:在本地搭建一个带知识库的 AI 助手(Ollama + Open WebUI)

一文讲清楚:要选哪些工具、需要什么环境、整体架构长什么样,以及一步步实现到能用的程度。 一、为什么要在本地搭一个 AI 助手? 过去一年,大模型从“新奇玩意儿”迅速变成“日常生产力工具”。但如果你只用网页版 ChatGPT / 文心一言 / 通义千问,会碰到几个很现实的问题: * 数据隐私:公司内部文档、个人笔记、聊天记录,你敢全部塞到线上吗? * 网络依赖:在飞机上、高铁里,或者公司内网严格管控时,在线 AI 直接“失联”。 * 额度与费用:免费额度有限,稍微重度一点就要付费,而且你也不知道自己的数据会不会被拿去训练。 本地部署一套 “AI + 知识库” 的好处就非常直观: 1. 数据完全不出本地,满足隐私合规要求。 2. 断网也能用,随时随地调取你的“第二大脑”。 3. 可定制:可以给团队搭一个“