大模型训练:LLaMA-Factory快速上手

第1步:安装环境

git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory # 推荐使用 conda conda create -n llama-factory python=3.10 conda activate llama-factory pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt pip install -e ".[torch,metrics]"
⚠️ 注意:推荐使用 CUDA 环境,GPU 显存建议 ≥24GB(如 3090/4090)

第2步:准备数据

支持多种格式,最常用的是 Alpaca 格式 JSON 文件

[{"instruction":"写一首关于春天的诗","input":"","output":"春风拂面花自开,柳绿桃红映山川..."},{"instruction":"解释什么是机器学习","input":"","output":"机器学习是让计算机从数据中自动学习规律的技术..."}]

📌 存为 my_data.json,放在 data/ 目录下。


第3步:启动训练-多GPU(以 LoRA 微调 Qwen-7B 为例)

参考examples/accelerate 下面的文件,准备自己的yaml文件

compute_environment: LOCAL_MACHINE debug: false distributed_type: MULTI_GPU downcast_bf16:'no' gpu_ids:0,1,2,3 machine_rank:0 main_training_function: main mixed_precision: fp16 num_machines:1 num_processes:4 rdzv_backend:static same_network: true tpu_env:[] tpu_use_cluster: false tpu_use_sudo: false use_cpu: false main_process_port:29503

启用多GPU训练

#!/bin/bashCUDA_VISIBLE_DEVICES=4,5,6,7 accelerate launch --config_file config.yaml ../src/train.py \ --stage sft \ --do_train True\ --template qwen3 \ --finetuning_type lora \ --model_name_or_path ../Qwen/Qwen3-0.6B \ --dataset_dir ./vehicle_control_dataset \ --dataset my_data \ --output_dir ./saves \ --overwrite_cache \ --overwrite_output_dir \ --cutoff_len 1024\ --per_device_train_batch_size 1\ --per_device_eval_batch_size 1\ --gradient_accumulation_steps 8\ --lr_scheduler_type cosine \ --max_grad_norm 1.0\ --logging_steps 10\ --save_steps 200\ --warmup_steps 0\ --learning_rate 5e-5 \ --num_train_epochs 3.0\ --max_samples 100000\ --fp16 True \ --lora_rank 8\ --lora_dropout 0.1\ --lora_target all \ --plot_loss True 

Read more

OpenClaw进阶篇:浏览器自动化——让AI帮你操作网页

OpenClaw进阶篇:浏览器自动化——让AI帮你操作网页

OpenClaw进阶篇:浏览器自动化——让AI帮你操作网页 前言 上篇我们写了自定义Skill,发现核心是Prompt模板。 但Skill只是告诉AI"怎么做",真正执行还需要Tool。 今天讲一个强大的Tool:browser。 它让AI能像人一样操作浏览器——点击、输入、截图、执行JS。 一、browser工具是什么 OpenClaw的browser工具提供了三种连接模式: 1. 内置浏览器(默认) OpenClaw自带Playwright浏览器,AI可以直接调用: 功能说明示例navigate打开网页访问百度、知乎snapshot获取页面快照了解当前页面状态screenshot截图保留证据click点击元素登录、搜索、提交type输入文字填表单、发评论evaluate执行JS提取数据、计算select下拉选择选择日期、分类hover悬停显示隐藏菜单 特点:开箱即用,适合大多数场景。 2. CDP模式(Chrome DevTools Protocol) 连接你已有的Chrome浏览器,通过调试端口控制: // 启动Chrome时加上调试端口/

Whisper-large-v3企业部署避坑指南:端口冲突、CUDA OOM、ffmpeg缺失全解析

Whisper-large-v3企业部署避坑指南:端口冲突、CUDA OOM、ffmpeg缺失全解析 1. 为什么企业级部署总在“最后一公里”翻车? 你花三天时间拉完代码、配好环境、跑通demo,信心满满准备上线——结果服务启动失败,日志里只有一行ffmpeg not found;或者好不容易跑起来了,上传一段5分钟音频,GPU显存直接飙到100%,进程被OOM Killer无情杀死;又或者同事说“我打不开网页”,你一查才发现7860端口早被另一个Python脚本占着,而你根本没意识到Gradio默认监听的是0.0.0.0:7860,不是127.0.0.1:7860。 这不是模型不行,是部署环节的“隐性成本”在反杀。Whisper-large-v3作为当前开源语音识别模型中精度与多语言支持的标杆(支持99种语言自动检测),其1.5B参数量和高保真音频处理流程,对运行环境提出了远超普通Web服务的要求。很多团队卡在“能跑”和“稳跑”之间,差的不是技术能力,

一键部署 Qwen-Image-Lightning:AI绘画从未如此简单

一键部署 Qwen-Image-Lightning:AI绘画从未如此简单 你是否曾经被复杂的AI绘画工具劝退?需要安装各种依赖、配置环境参数、还要担心显存爆炸?现在,这一切都将成为历史。Qwen-Image-Lightning的出现,让AI绘画变得像使用手机APP一样简单——只需一键部署,输入文字,就能获得惊艳的高清图像。 这个基于Qwen旗舰底座的文生图镜像,集成了最新的Lightning加速技术,将传统的50步推理压缩到仅需4步,同时彻底解决了显存不足的痛点。无论你是设计师、内容创作者,还是只是想体验AI绘画乐趣的普通用户,都能在几分钟内开始创作属于自己的艺术作品。 1. 为什么选择Qwen-Image-Lightning? 在AI绘画工具百花齐放的今天,Qwen-Image-Lightning凭借几个核心优势脱颖而出,真正做到了"简单易用"和"专业效果"的完美结合。 1.1 极速生成,告别漫长等待 传统的文生图模型通常需要20-50步推理过程,生成一张图片往往需要几分钟时间。Qwen-Image-Lightning采用了ByteDance/HyperSD等前沿加速技