基于 SFT 微调 Llama2 实现自我认知 | 极客日志

PythonAI算法

基于 SFT 微调 Llama2 实现自我认知

综述由AI生成使用 SFT 微调 Llama2 模型以实现自我认知的完整流程。内容包括环境配置、数据准备、LoRA 微调训练、模型测试与导出，以及通过 FastChat 提供 OpenAI 兼容 API 接口的方法。此外，还展示了如何将微调后的模型与本地知识库框架整合，并补充了常见问题排查与性能优化建议，为垂直领域大模型应用开发提供参考。

魔尊发布于 2025/2/6更新于 2026/6/225 浏览

一、概述

本文主要介绍如何通过监督微调（SFT）调整 Llama2 模型的自我认知能力。通过微调，模型能够更准确地回答关于自身身份或特定设定相关的问题。

微调前效果示例： 微调前后效果对比

微调后效果示例： 微调前后效果对比

通过本文的学习，你将了解如下内容：

如何使用 SFT 微调 Llama2
如何导出微调后的大模型
如何使用 FastChat 实现 OpenAI 兼容的 RESTful API 接口

二、环境与模型选择

环境配置

使用 nvidia-smi 命令查看 GPU 的配置，微调的 GPU 配置如下：

$nvidia-smi     
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.161.03   Driver Version: 470.161.03   CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A800-SXM...  Off  | 00000000:8E:00.0 Off |                    0 |
| N/A   30C    P0    69W / 400W |  17320MiB / 81251MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+
                                                                                
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================
+-----------------------------------------------------------------------------+

微调 Llama2 需要 1 个 GPU，建议显存至少 24G，较低的内存会导致加载模型较慢。

开源框架和模型

微调的模型： Chinese-Llama-2-7b
微调框架： LLaMA-Efficient-Tuning

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 在当前目录新建一个 models 文件夹用来存放大模型
mkdir models
# 使用下面的命令下载模型，模型比较大，下载过程较缓慢，
git lfs install
git clone https://huggingface.co/LinkSoul/Chinese-Llama-2-7b

# 设置下面的环境变量，则不会下载大文件，只会下载小文件
export GIT_LFS_SKIP_SMUDGE=1

git clone https://github.com/hiyouga/LLaMA-Efficient-Tuning.git

cd LLaMA-Efficient-Tuning

{
	"self_cognition": {
    "file_name": "self_cognition.json",
    "file_sha1": "6287a730ada924fc5d9eadc6d8f865e01b7a6f67"
  }
}

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --do_train \
    --dataset self_cognition \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --output_dir /ossfs/workspace/llama2-sft/checkpoint-01 \
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 2000 \
    --learning_rate 1e-3 \
    --num_train_epochs 10.0 \
    --plot_loss \
    --fp16

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01\
    --template llama2

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01,/ossfs/workspace/llama2-sft/checkpoint-02\
    --template default

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01\
    --template default

CUDA_VISIBLE_DEVICES=0 python src/export_model.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01\
    --output_dir /ossfs/workspace/sft-models/my-llama5 \
    --template default

python3 -m fastchat.serve.controller

python3 -m fastchat.serve.model_worker --model-path /ossfs/workspace/sft-models/my-llama5

python3 -m fastchat.serve.openai_api_server --host localhost --port 8000

pip install --upgrade openai

import openai
# to get proper authentication, make sure to use a valid key that's listed in
# the --api-keys flag. if no flag value is provided, the `api_key` will be ignored.
openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"

# 这里指定微调的模型名字，也就是保存模型文件的文件夹名称
model = "my-llama5"

# create a chat completion
completion = openai.ChatCompletion.create(
  model=model,
  messages=[{"role": "user", "content": "你是谁"}]
)
# print the completion
print(completion.choices[0].message.content)

git clone https://github.com/chatchat-space/Langchain-Chatchat.git

cd Langchain-Chatchat
pip install -r requirements.txt
pip install -r requirements_api.txt

cp configs/model_config.py.example configs/model_config.py

llm_model_dict = {
    "llama2": {
        "local_model_path": "/ossfs/workspace/sft-models/my-llama5",
        "api_base_url": "http://localhost:8888/v1",  # 修改为 fastchat 服务中的"api_base_url"
        "api_key": "EMPTY"
    }
}

# LLM 名称
LLM_MODEL = "llama2"

python server/llm_api.py

# 服务启动后接口调用示例：
import openai
openai.api_key = "EMPTY" # Not support yet
openai.api_base = "http://localhost:8888/v1"

model = "llama2"

def get_answer(content):
    # create a chat completion
    completion = openai.ChatCompletion.create(
      model=model,
      messages=[{"role": "user", "content": content}]
    )
    print('用户:', content)
    # print the completion
    print('模型:', completion.choices[0].message.content)

get_answer('你是谁')
get_answer('你叫什么名字')

基于 SFT 微调 Llama2 实现自我认知

一、概述

二、环境与模型选择

环境配置

开源框架和模型

更多推荐文章

相关免费在线工具

三、SFT 微调

1、下载预训练模型

2、下载微调框架

3、准备微调数据

4、开始 SFT 微调

5、测试微调后的模型

6、导出微调后的模型

7、微调模型提供 RESTful API 接口

8、微调模型和本地知识库整合

四、常见问题与优化建议

1. 显存不足（OOM）

2. 损失不下降

3. 推理速度慢

五、总结

更多推荐文章

相关免费在线工具

基于 SFT 微调 Llama2 实现自我认知

一、概述

二、环境与模型选择

环境配置

开源框架和模型

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

三、SFT 微调

1、下载预训练模型

2、下载微调框架

3、准备微调数据

4、开始 SFT 微调

5、测试微调后的模型

6、导出微调后的模型

7、微调模型提供 RESTful API 接口

8、微调模型和本地知识库整合

四、常见问题与优化建议

1. 显存不足（OOM）

2. 损失不下降

3. 推理速度慢

五、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具