利用大模型构造数据集并微调模型实战

利用大模型构造数据集并微调模型实战 | 极客日志

{
  "instruction": "保持健康的三个提示。",
  "input": "",
  "output": "以下是保持健康的三个提示：\n\n1. 保持身体活动。每天做适当的身体运动..."
}

小时候，那时我还只有6岁，看到一本描写原始森林壮观景象的书，名叫真实的故事。书里有一幅很精彩的插画，画的是一条大蟒蛇正在吞食一只动物...

QA_PAIRS_SYSTEM_PROMPT = """
<Context></Context> 标记中是一段文本，请学习和分析它，并整理学习成果：
- 提出问题并给出每个问题的答案。
- 答案需详细完整，尽可能保留原文描述。
- 答案可以包含普通文字、链接、代码、表格等 Markdown 元素。
- 最多提出 30 个问题。
"""

QA_PAIRS_HUMAN_PROMPT = """
请按以下格式整理学习成果:
<Context>
{text}
</Context>
[
  {{"question": "问题 1", "answer": "答案 1"}},
  {{"question": "问题 2", "answer": "答案 2"}}
]
------
我们开始吧!
"""

import json
from typing import List
from tqdm import tqdm
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from langchain_openai import AzureChatOpenAI
from langchain_community.document_loaders import UnstructuredFileLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

def split_document(filepath):
    loader = UnstructuredFileLoader(filepath)
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=2048,
        chunk_overlap=128
    )
    documents = loader.load_and_split(text_splitter)
    return documents

prompt = ChatPromptTemplate.from_messages([
    ("system", QA_PAIRS_SYSTEM_PROMPT),
    ("human", QA_PAIRS_HUMAN_PROMPT)
])

llm = AzureChatOpenAI(
    azure_endpoint=endpoint,
    deployment_name=deployment_name,
    openai_api_key=api_key,
    openai_api_version="2024-02-01",
)

from langchain_core.pydantic_v1 import BaseModel, Field

class QaPair(BaseModel):
    question: str = Field(description='问题内容')
    answer: str = Field(description='问题的回答')

class QaPairs(BaseModel):
    qas: List[QaPair] = Field(description='问答对列表')

parser = JsonOutputParser(pydantic_object=QaPairs)

def create_chain():
    prompt = ChatPromptTemplate.from_messages([
        ("system", QA_PAIRS_SYSTEM_PROMPT),
        ("human", QA_PAIRS_HUMAN_PROMPT)
    ])
    llm = AzureChatOpenAI(
        azure_endpoint=endpoint,
        deployment_name=deployment_name,
        openai_api_key=api_key,
        openai_api_version="2024-02-01",
    )
    parser = JsonOutputParser(pydantic_object=QaPairs)
    chain = prompt | llm | parser
    return chain

def main():
    chain = create_chain()
    documents = split_document('The.Little.Prince.txt')
    datas = []
    bar = tqdm(total=len(documents))
    for idx, doc in enumerate(documents):
        bar.update(1)
        try:
            out = chain.invoke({'text': doc.page_content})
            if isinstance(out, dict) and 'qas' in out:
                datas.extend(out['qas'])
        except Exception as e:
            print(f"Error processing doc {idx}: {e}")
    
    with open('dataset.json', 'w', encoding='utf-8') as f:
        json.dump(datas, f, ensure_ascii=False, indent=2)
    print(f"Total pairs generated: {len(datas)}")

if __name__ == '__main__':
    main()

from peft import LoraConfig, TaskType, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer

# 配置 LoRA 参数
peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    r=8,              # 低秩矩阵维度
    lora_alpha=32,    # 缩放系数
    lora_dropout=0.1
)

# 加载基座模型
model = AutoModelForCausalLM.from_pretrained(
    "microsoft/Phi-3-mini-4k-instruct",
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")

# 应用 LoRA
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()

from datasets import load_dataset

def tokenize_function(example):
    encoded = tokenizer(
        example['question'],
        truncation=True,
        padding='max_length',
        max_length=512
    )
    # 标签设为答案部分
    labels = tokenizer(
        example["answer"],
        truncation=True,
        padding="max_length",
        max_length=512
    )["input_ids"]
    encoded["labels"] = [-100] * len(encoded["input_ids"])  # 默认忽略
    # 仅将答案部分的 token 设为标签
    input_len = len(encoded["input_ids"])
    label_start = input_len - len(labels)
    encoded["labels"][label_start:] = labels
    return encoded

# 加载本地数据集
dataset = load_dataset('json', data_files={'train': 'dataset.json'})
tokenized_dataset = dataset.map(tokenize_function, batched=True)

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="outputs",
    learning_rate=2e-4,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    num_train_epochs=3,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    fp16=True,
    logging_steps=10
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
    tokenizer=tokenizer,
)

trainer.train()
model.save_pretrained("outputs")

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "microsoft/Phi-3-mini-4k-instruct",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")

model = model.to("cuda")
model.load_adapter('outputs', adapter_name='lora01')
model.set_adapter("lora01")
model.eval()

inputs = tokenizer("作者小时候看了一本关于什么的书？", return_tensors="pt")
outputs = model.generate(
    input_ids=inputs["input_ids"].to("cuda"), 
    max_new_tokens=100,
    temperature=0.7
)
print(tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0])

利用大模型构造数据集并微调模型实战

一、前言

二、构造数据集

2.1 目的与格式

2.2 Prompt 设计

2.3 处理文档

2.4 构建 Chain

2.4.1 Prompt 整合

2.4.2 LLM 配置

2.4.3 结果解析

三、微调模型

3.1 加载模型与配置 LoRA

3.2 数据处理与 Tokenization

3.3 训练配置与执行

四、推理部署

五、常见问题与优化建议

5.1 数据质量控制

5.2 训练稳定性

5.3 推理性能优化

六、总结

更多推荐文章

相关免费在线工具

利用大模型构造数据集并微调模型实战

一、前言

二、构造数据集

2.1 目的与格式

2.2 Prompt 设计

2.3 处理文档

2.4 构建 Chain

2.4.1 Prompt 整合

2.4.2 LLM 配置

2.4.3 结果解析

三、微调模型

3.1 加载模型与配置 LoRA

3.2 数据处理与 Tokenization

3.3 训练配置与执行

四、推理部署

五、常见问题与优化建议

5.1 数据质量控制

5.2 训练稳定性

5.3 推理性能优化

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具