微调 Llama3 的自我认知
当你问 Llama3 中文问题:
'你叫什么名字?'、'做个自我介绍'、'你好'
Llama3 会用中文回答自定义的身份信息。
1、环境安装
# nvidia 显卡 显存 16G
# pytorch 2.2.2 py3.10_cuda11.7_cudnn8.5.0_0
conda create --name xtuner python=3.10 -y
# 激活环境
conda activate xtuner
# 安装最新版 xtuner
pip install xtuner
2、自我认知训练数据集准备
为了让模型认清自己的身份——'我是谁,我来自哪里',知道在询问自己是谁的时候回复成我们想要的样子,就需要在微调数据集中大量掺杂这部分的数据。
首先创建一个文件夹来存放这次训练所需要的所有文件。
# 前半部分是创建一个项目工程文件夹,后半部分是进入该文件夹。
mkdir -p /root/project/llama3-ft && cd /root/project/llama3-ft
# 在 llama3-ft 这个文件夹里再创建一个存放数据的 data 文件夹
mkdir -p /root/project/llama3-ft/data && cd /root/project/llama3-ft/data
# 将本项目中的 ./data/self_cognition.json 文件复制到 /root/project/llama3-ft/data 中
cp <替换本 Git 项目目录>/data/self_cognition.json /root/project/llama3-ft/data
通过文本编辑器打开 self_cognition.json 文件,将其中的占位符替换成期望的名称。文本替换后的效果如下:
[
{
"instruction": "你好",
"input": "",
"output": "您好,我是智能助手,一个由 AI 开发的人工智能助手,很高兴认识您。请问我能为您做些什么?"
},
{
"instruction": "你好",
"input":


