使用 LLaMA-Factory 训练 LLM 大模型并用 Ollama 调用

使用 LLaMA-Factory 训练 LLM 大模型并用 Ollama 调用 | 极客日志

uv python install 3.11
uv python list # 查看是否安装成功

nvidia-smi # 查看当前驱动最大支持的 CUDA 版本
nvcc -V    # 查看当前安装的 CUDA 运行时版本

git config --global http.https://github.com.proxy socks5://127.0.0.1:1080 # 对 github 设置 socks5 代理
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
uv venv -p 3.11
uv pip install -e ".[torch,metrics]"

uv pip install https://github.com/bdashore3/flash-attention/releases/download/v2.6.3/flash_attn-2.6.3+cu123torch2.3.1cxx11abiFALSE-cp311-cp311-win_amd64.whl

uv pip install hqq

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

uv pip install .\torch-2.3.1+cu121-cp311-cp311-win_amd64.whl
uv pip install torchvision==0.18.1+cu121 torchaudio==2.3.1+cu121 -f https://download.pytorch.org/whl/torch_stable.html

  "alpaca_dataset": {
    "file_name": "alpaca_dataset.json"
  },

@echo off
cd /d E:\AI\LLaMA-Factory
.\.venv\Scripts\llamafactory-cli.exe %*

llamafactory-cli webui

OLLAMA_ORIGINS			*
OLLAMA_MODELS			E:\AI\ollama_models

ollama pull qwen2.5:7b

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
uv venv -p 3.11
uv pip install -r .\requirements\requirements-convert_lora_to_gguf.txt --index-strategy unsafe-best-match

.venv\Scripts\activate.ps1
# python ./convert_lora_to_gguf.py --base <basemodel> <loratrain>
python ./convert_lora_to_gguf.py --base "E:\AI\models\Qwen2.5-7B-Instruct" "E:\AI\LLaMA-Factory\saves\Qwen2.5-7B-Instruct\lora\train_xxx"

# set the base model
FROM qwen2.5:7b
 
# set custom parameter values
PARAMETER temperature 1
PARAMETER num_keep 24
PARAMETER stop <|start_header_id|>
PARAMETER stop <|end_header_id|>
PARAMETER stop <|eot_id|>
PARAMETER stop <|reserved_special_token| 
 
# set the model template
TEMPLATE """
{{ if .System }}<|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>
{{ .Response }}<|eot_id|>
""" 
 
# set the system message
SYSTEM You are a helpful assistant customized for local deployment.
# set Chinese lora support
ADAPTER .\mymodel.gguf

ollama create mymodel -f E:\models\mymodel\mymodel.modelfile

ollama run mymodel "你好，请介绍一下你自己。"

curl http://localhost:11434/api/generate -d '{
  "model": "mymodel",
  "prompt": "请用中文回答：什么是人工智能？",
  "stream": false
}'

使用 LLaMA-Factory 训练 LLM 大模型并用 Ollama 调用

环境搭建

系统环境要求

设置自定义 Path 文件夹

CMake 安装

C++ 编译环境

Python 环境配置

Anaconda 安装

使用 uv 管理 pip 包

安装 Python 3.11

Git 环境

Nvidia CUDA 工具包

部署训练框架

部署 LLaMA-Factory

拉取源码

安装 flash-attention 训练加速

安装 hqq 用于量化

开启使用 UTF-8 提供全球语言支持

安装与当前 CUDA 适配的 PyTorch

配置之前保存的参数

添加环境变量快捷启动

下载基础模型

模型微调

微调后的模型使用

部署 Ollama

设置环境变量

下载并安装

拉取基础模型

微调模型格式转换

部署 llama.cpp

模型检查点转换为 GGUF

部署微调模型

从 Ollama 创建新模型

模型验证与调用

常见问题排查

更多推荐文章

相关免费在线工具

使用 LLaMA-Factory 训练 LLM 大模型并用 Ollama 调用

环境搭建

系统环境要求

设置自定义 Path 文件夹

CMake 安装

C++ 编译环境

Python 环境配置

Anaconda 安装

使用 uv 管理 pip 包

安装 Python 3.11

Git 环境

Nvidia CUDA 工具包

部署训练框架

部署 LLaMA-Factory

拉取源码

安装 flash-attention 训练加速

安装 hqq 用于量化

开启使用 UTF-8 提供全球语言支持

安装与当前 CUDA 适配的 PyTorch

配置之前保存的参数

添加环境变量快捷启动

下载基础模型

模型微调

微调后的模型使用

部署 Ollama

设置环境变量

下载并安装

拉取基础模型

微调模型格式转换

部署 llama.cpp

模型检查点转换为 GGUF

部署微调模型

从 Ollama 创建新模型

模型验证与调用

常见问题排查

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具