人工智能大模型应用开发：从微调适配到场景落地 | 极客日志

PythonAI算法

人工智能大模型应用开发：从微调适配到场景落地

综述由AI生成人工智能大模型应用开发的完整流程，涵盖模型选型原则、环境搭建、微调技术（如 QLoRA）、典型场景落地（企业知识库、智能客服、代码助手）及上线考量。重点讲解了基于 LangChain 和 Hugging Face 框架的开发实践，包括 RAG 检索增强生成、对话记忆管理及性能优化策略，旨在帮助开发者实现从技术适配到业务落地的端到端能力。

墨染流年发布于 2026/4/5更新于 2026/5/2327 浏览

一、人工智能大模型应用开发：从微调适配到场景落地

在这里插入图片描述

1.1 本章学习目标与重点

💡 掌握大模型应用开发的核心流程，包括模型选型、微调适配、功能封装、部署上线等关键环节； 💡 熟练运用主流大模型框架（Hugging Face Transformers、LangChain、LlamaIndex 等），实现文本生成、问答系统、智能助手等常见应用； 💡 理解大模型微调的核心技术（全参数微调、LoRA、QLoRA 等），能够根据数据规模和硬件资源选择合适的适配方案； 💡 通过真实场景案例（企业知识库问答、智能客服、代码生成助手），掌握大模型从技术适配到业务落地的端到端开发能力。

⚠️ 重点关注：大模型的上下文窗口限制、生成内容的准确性与安全性、微调过程中的显存优化、以及生产环境下的性能与稳定性平衡。

1.2 大模型应用开发基础：选型与环境搭建

大模型应用开发的第一步是明确业务需求，选择合适的模型并搭建稳定的开发环境。本节将从模型选型原则、主流开发框架介绍、环境搭建实操三个维度，为后续开发奠定基础。

1.2.1 大模型选型核心原则

大模型选型需兼顾业务需求、性能指标、资源约束三大核心因素，避免盲目追求大参数量模型导致的开发成本浪费。

1. 业务需求匹配

文本生成类（如文案创作、小说续写）：优先选择擅长创造性写作的模型（如 GPT-4、Claude 3、Llama 3）；
知识问答类（如企业知识库、行业咨询）：优先选择知识覆盖全面、推理能力强的模型（如 GPT-4o、Gemini Pro、通义千问）；
代码生成类（如代码补全、bug 修复）：优先选择代码领域优化的模型（如 CodeLlama、StarCoder、GPT-4 Code）；
多模态类（如图文生成、语音交互）：选择支持多模态输入输出的模型（如 GPT-4o、Gemini Ultra、文心一言 4.0）；
私有化部署类（如涉密场景、内网应用）：选择支持本地部署的开源模型（如 Llama 2/3、Mistral、Qwen）。

2. 性能指标评估

生成质量：通过困惑度（Perplexity）、BLEU 分数、人工评估（流畅度、准确性、相关性）衡量；
推理速度：关注单轮请求延迟（Latency）和吞吐量（Throughput），尤其高并发场景需优先选择轻量化模型；
上下文窗口：根据业务场景的输入长度需求选择（如短文本交互选 4k/8k 窗口，长文档处理选 32k/128k 窗口）；
成本预算：API 调用类模型需评估 Token 消耗成本，私有化部署类需考虑硬件采购和运维成本。

3. 资源约束适配

硬件资源	推荐模型类型	典型应用场景
消费级 GPU（16GB 显存）	7B/13B 开源模型（如 Llama 3 8B、Mistral 7B）	个人开发、小型应用、原型验证
企业级 GPU（32GB/48GB 显存）	34B/70B 开源模型（如 Llama 3 70B、Qwen 72B）	部门级应用、中等规模私有化部署
数据中心 GPU（80GB+ 显存）	100B+ 开源模型（如 Llama 3 400B、GPT-4 本地部署版）	企业级核心业务、大规模私有化部署
无 GPU/低资源环境	API 调用类模型（如 OpenAI API、阿里云百炼 API）	快速迭代、轻量级应用、成本敏感场景

💡 实战技巧：原型开发阶段优先使用 API 调用类模型（如 GPT-3.5 Turbo）快速验证需求，产品化阶段再根据成本和隐私要求，选择开源模型私有化部署或继续使用 API 服务。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 更新系统依赖
sudo apt-get update && sudo apt-get install -y \
    python3-pip \
    python3-dev \
    build-essential \
    git \
    libgl1-mesa-glx \
    libglib2.0-0
# 升级 pip
pip3 install --upgrade pip

# 安装 PyTorch 2.1.0（适配 CUDA 11.8）
pip3 install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118
# 验证 PyTorch 安装（是否支持 GPU）
python3 -c "import torch; print('CUDA 支持：', torch.cuda.is_available())"
# 输出 True 表示成功

# 安装 Hugging Face 生态
pip3 install transformers==4.38.2 datasets==2.18.0 peft==0.8.2 accelerate==0.30.1 bitsandbytes==0.43.0
# 安装 LangChain 生态
pip3 install langchain==0.2.5 langchain-community==0.2.5 langchain-openai==0.1.7
# 安装 LlamaIndex
pip3 install llama-index==0.10.31
# 安装向量数据库（用于知识库存储）
pip3 install chromadb==0.4.24 faiss-cpu==1.7.4
# faiss-gpu 需单独安装：pip3 install faiss-gpu
# 安装其他工具（文档解析、日志、可视化）
pip3 install pypdf==4.1.0 python-dotenv==1.0.1 tqdm==4.66.2 matplotlib==3.8.4

# 验证 Transformers 模型加载
from transformers import AutoModelForCausalLM, AutoTokenizer
# 加载小型开源模型（Llama 3 8B Instruct，需提前申请访问权限）
model_name = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",  # 自动分配设备（CPU/GPU）
    load_in_8bit=True  # 8bit 量化加载，节省显存
)
# 测试文本生成
inputs = tokenizer("请介绍人工智能大模型的应用场景", return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200, temperature=0.7, top_p=0.9)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# 验证 LangChain 链功能
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import HuggingFacePipeline

# 封装 Transformers 模型为 LangChain LLM
pipeline = transformers.pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=200, temperature=0.7)
llm = HuggingFacePipeline(pipeline=pipeline)

# 构建简单生成链
prompt = PromptTemplate(
    input_variables=["topic"],
    template="请围绕 {topic} 写一段 100 字左右的介绍"
)
chain = LLMChain(llm=llm, prompt=prompt)
print(chain.run("大模型微调技术"))

微调技术	核心原理	显存占用	训练速度	效果提升	适用场景
全参数微调	调整模型所有参数，让模型完全适配数据	高（70B 模型需 80GB+ 显存）	慢	优	数据量充足（10 万 + 样本）、资源充足场景
LoRA（Low-Rank Adaptation）	冻结模型主干参数，仅训练低秩矩阵适配器	中（70B 模型需 24GB+ 显存）	中	优	数据量中等（1 万 -10 万样本）、平衡效果与成本
QLoRA（Quantized LoRA）	量化模型（4bit/8bit）+ LoRA 微调	低（70B 模型需 16GB+ 显存）	快	良 - 优	数据量少（1 千 -1 万样本）、消费级 GPU 开发
提示微调（Prompt Tuning）	冻结模型参数，仅训练提示相关嵌入层	极低	极快	一般	数据量极少（<1 千样本）、快速适配简单任务

{"prompt":"请问公司的员工年假政策是什么？","response":"公司员工年假政策如下：1. 入职满 1 年不满 3 年，年假 5 天；2. 入职满 3 年不满 10 年，年假 10 天；3. 入职满 10 年，年假 15 天；4. 年假可分次使用，当年未休完的部分不累计至次年。"}
{"prompt":"报销流程需要提交哪些材料？","response":"报销需提交以下材料：1. 正规发票（抬头为公司全称）；2. 费用明细单（注明用途、金额、日期）；3. 相关支撑材料（如出差申请单、会议通知等）；4. 报销申请表（需部门负责人签字）。"}

import json
import datasets
from datasets import Dataset

# 加载本地 JSONL 数据集
def load_custom_dataset(data_path):
    with open(data_path, "r", encoding="utf-8") as f:
        data = [json.loads(line) for line in f]
    # 转换为 Hugging Face Dataset 格式
    dataset = Dataset.from_list(data)
    # 划分训练集和验证集（9:1）
    dataset = dataset.train_test_split(test_size=0.1, seed=42)
    return dataset["train"], dataset["test"]

# 加载数据
train_dataset, val_dataset = load_custom_dataset("company_kb_qa.jsonl")
print(f"训练集样本数：{len(train_dataset)}，验证集样本数：{len(val_dataset)}")

# 数据预处理：格式化 prompt（适配 Llama 3 指令格式）
def format_prompt(sample):
    prompt = f"""<<|begin_of_solution|> 用户问题：{sample['prompt']} 回答：{sample['response']}<<|end_of_solution|>"""
    return{"text": prompt}

# 应用格式化函数
train_dataset = train_dataset.map(format_prompt)
val_dataset = val_dataset.map(format_prompt)

# 查看处理后的数据
print("处理后的数据示例：", train_dataset[0]["text"])

from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline
)
from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model

# 模型名称（Llama 3 8B Instruct）
model_name = "meta-llama/Meta-Llama-3-8B-Instruct"

# 配置 4bit 量化参数
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,  # 启用 4bit 加载
    bnb_4bit_use_double_quant=True,  # 双量化，进一步降低显存占用
    bnb_4bit_quant_type="nf4",  # 量化类型（nf4 对大模型更友好）
    bnb_4bit_compute_dtype=torch.bfloat16  # 计算精度
)

# 加载 Tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # 设置 pad token（Llama 3 默认无 pad token）
tokenizer.padding_side = "right"  # 右填充，避免影响生成效果

# 加载量化模型
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",  # 自动分配设备
    trust_remote_code=True
)

# 准备模型用于 kbit 训练
model = prepare_model_for_kbit_training(model)

# 配置 LoRA 参数
lora_config = LoraConfig(
    r=8,  # 低秩矩阵维度（越大效果越好，但显存占用越高）
    lora_alpha=32,  # 缩放因子（一般为 r 的 2-4 倍）
    target_modules=["q_proj", "v_proj"],  # 目标模块（Llama 3 注意力层的查询和值投影层）
    lora_dropout=0.05,  # Dropout 比例
    bias="none",  # 不训练偏置项
    task_type="CAUSAL_LM"  # 任务类型（因果语言模型）
)

# 应用 LoRA 配置到模型
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()  # 打印可训练参数比例（一般为 0.1%-1%）

trainable params: 1,677,824 || all params: 8,031,870,976 || trainable%: 0.0209

from trl import SFTTrainer
from transformers import TrainingArguments

# 训练参数配置
training_args = TrainingArguments(
    output_dir="./llama3-8b-company-qa-lora",  # 模型保存路径
    per_device_train_batch_size=4,  # 单设备训练批量大小（根据显存调整）
    per_device_eval_batch_size=4,  # 单设备验证批量大小
    gradient_accumulation_steps=4,  # 梯度累积步数（模拟更大批量）
    learning_rate=2e-4,  # 学习率（LoRA 微调一般为 1e-4~3e-4）
    num_train_epochs=3,  # 训练轮数（数据量少则增加轮数）
    logging_steps=10,  # 日志打印步数
    evaluation_strategy="epoch",  # 每轮 epoch 验证一次
    save_strategy="epoch",  # 每轮 epoch 保存一次模型
    fp16=True,  # 启用 FP16 训练，提升速度
    push_to_hub=False,  # 不推送到 Hugging Face Hub
    report_to="none",  # 不使用 wandb 等日志工具
    optim="paged_adamw_8bit",  # 优化器（适配 8bit 量化）
    lr_scheduler_type="cosine",  # 学习率调度器（余弦退火）
    warmup_ratio=0.05  # 热身比例（前 5% 步数逐步提升学习率）
)

# 初始化 SFTTrainer
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer,
    peft_config=lora_config,
    max_seq_length=512,  # 最大序列长度
    packing=False  # 不启用数据打包（简单任务关闭即可）
)

# 开始训练
trainer.train()
# 保存 LoRA 适配器（仅保存训练的 LoRA 参数，体积小）
trainer.save_model("./llama3-8b-company-qa-lora-final")
print("QLoRA 微调完成，LoRA 适配器已保存")

# 加载微调后的模型（基座模型 + LoRA 适配器）
from peft import PeftModel, PeftConfig

# 加载 LoRA 配置
peft_config = PeftConfig.from_pretrained("./llama3-8b-company-qa-lora-final")
# 加载基座模型
base_model = AutoModelForCausalLM.from_pretrained(
    peft_config.base_model_name_or_path,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)
# 加载 LoRA 适配器
fine_tuned_model = PeftModel.from_pretrained(base_model, "./llama3-8b-company-qa-lora-final")

# 构建推理函数
def generate_answer(question):
    # 格式化输入（与微调数据格式一致）
    prompt = f"""<<|begin_of_solution|> 用户问题：{question} 回答：<<|end_of_solution|>"""
    # Tokenize 输入
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    # 生成回答
    outputs = fine_tuned_model.generate(**inputs, max_new_tokens=150, temperature=0.3,  # 降低随机性，提升准确性
                                        top_p=0.9, do_sample=True, pad_token_id=tokenizer.eos_token_id)
    # 解码输出
    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
    # 提取回答部分（去除 prompt）
    answer = answer.split("回答：")[-1].strip()
    return answer

# 测试推理效果
test_questions = ["请问入职满 5 年的员工有多少天年假？", "报销需要提交哪些材料？", "年假可以分次使用吗？"]
for q in test_questions:
    print(f"问题：{q}")
    print(f"回答：{generate_answer(q)}\n")

问题：请问入职满 5 年的员工有多少天年假？ 回答：入职满 3 年不满 10 年的员工，年假为 10 天。因此入职满 5 年的员工可享受 10 天年假。
问题：报销需要提交哪些材料？ 回答：报销需提交以下材料：1. 正规发票（抬头为公司全称）；2. 费用明细单（注明用途、金额、日期）；3. 相关支撑材料（如出差申请单、会议通知等）；4. 报销申请表（需部门负责人签字）。
问题：年假可以分次使用吗？ 回答：可以。公司年假政策规定，年假可分次使用，当年未休完的部分不累计至次年。

from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载 LoRA 配置和基座模型
peft_config = PeftConfig.from_pretrained("./llama3-8b-company-qa-lora-final")
base_model = AutoModelForCausalLM.from_pretrained(
    peft_config.base_model_name_or_path,
    device_map="auto",
    torch_dtype=torch.float16,  # 以 FP16 精度加载
    trust_remote_code=True
)
# 加载并合并 LoRA 适配器
merged_model = PeftModel.from_pretrained(base_model, "./llama3-8b-company-qa-lora-final")
merged_model = merged_model.merge_and_unload()  # 合并并卸载 LoRA 适配器

# 加载 Tokenizer
tokenizer = AutoTokenizer.from_pretrained(peft_config.base_model_name_or_path)
tokenizer.pad_token = tokenizer.eos_token

# 保存合并后的模型
merged_model.save_pretrained("./llama3-8b-company-qa-merged")
tokenizer.save_pretrained("./llama3-8b-company-qa-merged")
print("模型合并完成，已保存完整模型")

# 将合并后的 FP16 模型量化为 INT8，用于低显存部署
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    bnb_8bit_use_double_quant=True,
    bnb_8bit_quant_type="nf4",
    bnb_8bit_compute_dtype=torch.float16
)

# 加载并量化模型
quantized_model = AutoModelForCausalLM.from_pretrained("./llama3-8b-company-qa-merged", quantization_config=quantization_config, device_map="auto", trust_remote_code=True)
# 保存量化模型
quantized_model.save_pretrained("./llama3-8b-company-qa-quantized")
print("INT8 量化模型保存完成，体积约 8GB")

from langchain.document_loaders import PyPDFLoader, DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 加载企业文档（PDF 文件夹）
def load_company_documents(doc_dir):
    # 配置 PDF 加载器
    loader = DirectoryLoader(
        doc_dir,
        glob="*.pdf",
        loader_cls=PyPDFLoader,
        show_progress=True
    )
    # 加载文档
    documents = loader.load()
    print(f"加载文档数：{len(documents)}")
    # 文本分割（解决大模型上下文窗口限制）
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,  # 每个文本块大小（字符数）
        chunk_overlap=50,  # 文本块重叠部分（保证上下文连贯性）
        length_function=len,
        separators=["\n\n", "\n", ". ", " ", ""]
    )
    # 执行分割
    splits = text_splitter.split_documents(documents)
    print(f"分割后文本块数：{len(splits)}")
    return splits

# 加载文档（示例：企业员工手册文件夹）
document_splits = load_company_documents("./company_documents")

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

# 配置 Embedding 模型（使用开源中文 Embedding 模型）
embedding_model = HuggingFaceEmbeddings(
    model_name="thenlper/gte-base-zh",  # 中文 Embedding 模型，效果优于默认模型
    model_kwargs={"device": "cuda"},  # 启用 GPU 加速
    encode_kwargs={"normalize_embeddings": True}  # 归一化向量，提升检索效果
)

# 构建向量数据库（Chroma，轻量级开源向量库）
vector_db = Chroma.from_documents(
    documents=document_splits,
    embedding=embedding_model,
    persist_directory="./chroma_company_kb",  # 向量库保存路径
    collection_name="company_manual"
)
vector_db.persist()
print("向量数据库构建完成")

# 测试检索功能
query = "员工年假政策是什么？"
retrieved_docs = vector_db.similarity_search(query, k=3)
# 检索 Top3 相关文本块
print("检索到的相关文本：")
for i, doc in enumerate(retrieved_docs):
    print(f"\n{i+1}. {doc.page_content[:200]}...")

from langchain.chains import RetrievalQA
from langchain.llms import HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

# 加载微调后的企业问答模型（或基座模型）
model_name = "./llama3-8b-company-qa-quantized"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    trust_remote_code=True
)

# 封装为 LangChain LLM
llm_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=300, temperature=0.3, top_p=0.9, pad_token_id=tokenizer.eos_token_id)
llm = HuggingFacePipeline(pipeline=llm_pipeline)

# 构建检索增强生成链
rag_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # 将所有检索到的文本块拼接为上下文
    retriever=vector_db.as_retriever(search_kwargs={"k": 3}),  # 每次检索 3 个相关文本块
    return_source_documents=True,  # 返回检索到的源文档（用于溯源）
    chain_type_kwargs={"prompt": """ 你是企业知识库问答助手，必须基于以下提供的上下文信息回答用户问题。 如果上下文没有相关信息，直接回复"抱歉，没有找到相关答案"，不要编造信息。 上下文：{context} 用户问题：{question} 回答： """}
)

# 测试 RAG 链
def ask_qa_system(question):
    result = rag_chain({"query": question})
    answer = result["result"]
    sources = [doc.page_content[:100] + "..." for doc in result["source_documents"]]
    return answer, sources

# 测试问题
test_question = "入职满 8 年的员工有多少天年假？"
answer, sources = ask_qa_system(test_question)
print(f"问题：{test_question}")
print(f"回答：{answer}")
print(f"参考来源：{sources}")

问题：入职满 8 年的员工有多少天年假？ 回答：入职满 3 年不满 10 年的员工，年假为 10 天。因此入职满 8 年的员工可享受 10 天年假。
参考来源：['公司员工年假政策如下：1. 入职满 1 年不满 3 年，年假 5 天；2. 入职满 3 年不满 10 年，年假 10 天；3. 入职满 10 年，年假 15 天；4. 年假可分次使用...', ...]

from fastapi import FastAPI, Query
from fastapi.responses import JSONResponse
import uvicorn

# 初始化 FastAPI 应用
app = FastAPI(title="企业知识库问答系统", version="1.0")

# 加载 RAG 链（已在前面代码中初始化，此处省略重复代码）
# ...

# 定义 API 接口
@app.get("/qa", summary="企业知识库问答")
async def company_qa(question: str = Query(..., description="用户问题"), k: int = Query(3, description="检索相关文本块数量")):
    try:
        # 调整检索数量
        rag_chain.retriever.search_kwargs["k"] = k
        # 执行问答
        result = rag_chain({"query": question})
        answer = result["result"]
        sources = [{"content": doc.page_content, "metadata": doc.metadata} for doc in result["source_documents"]]
        # 构建响应
        response = {"status": "success", "question": question, "answer": answer, "sources": sources}
        return JSONResponse(content=response)
    except Exception as e:
        return JSONResponse(
            content={"status": "error", "message": str(e)},
            status_code=500
        )

# 健康检查接口
@app.get("/health", summary="服务健康检查")
async def health_check():
    return JSONResponse(content={"status": "healthy", "service": "company-qa-system"})

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000, workers=1)

curl "http://localhost:8000/qa?question=报销需要提交哪些材料？"

from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline

# 加载中文意图识别模型（开源模型：bert-base-chinese-finetuned-intent）
intent_model_name = "uer/bert-base-chinese-finetuned-dianping-chinese-intent"
intent_tokenizer = AutoTokenizer.from_pretrained(intent_model_name)
intent_classifier = pipeline("text-classification", model=AutoModelForSequenceClassification.from_pretrained(intent_model_name), tokenizer=intent_tokenizer, device_map="auto")

# 扩展意图类型（适配客服场景）
INTENT_MAPPING = {
    "查询订单": ["查订单", "订单状态", "订单查询", "我的订单"],
    "物流咨询": ["物流", "快递", "配送", "发货"],
    "退款售后": ["退款", "退货", "售后", "换货"],
    "账户问题": ["登录", "注册", "密码", "账户"],
    "产品咨询": ["产品功能", "使用方法", "规格", "价格"],
    "投诉反馈": ["投诉", "反馈", "建议", "问题"],
    "其他": []
}

# 意图识别函数
def recognize_intent(question):
    # 先通过关键词匹配快速识别
    for intent, keywords in INTENT_MAPPING.items():
        if any(keyword in question for keyword in keywords):
            return intent
    # 关键词匹配失败，使用模型预测
    result = intent_classifier(question)[0]
    # 模型输出映射到自定义意图（此处简化处理，实际需根据模型输出调整）
    return "其他" if result["score"] < 0.7 else "产品咨询"

# 测试意图识别
test_questions = ["我的订单什么时候发货？", "如何申请退款？", "忘记登录密码了怎么办？", "这个产品支持无线充电吗？"]
for q in test_questions:
    print(f"问题：{q}，意图：{recognize_intent(q)}")

from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferWindowMemory
from langchain.prompts import PromptTemplate

# 配置对话记忆（保留最近 3 轮对话）
conversation_memory = ConversationBufferWindowMemory(
    k=3,  # 保留最近 3 轮
    return_messages=True,  # 返回 Message 对象，便于格式化
    memory_key="history"  # 记忆在 prompt 中的变量名
)

# 配置对话 prompt
conversation_prompt = PromptTemplate(
    input_variables=["history", "input"],
    template=""" 你是智能客服助手，负责解答用户关于产品、订单、物流、售后等问题。 对话历史：{history} 用户当前问题：{input} 回答要求： 1. 基于对话历史理解上下文，保持回答连贯； 2. 先识别用户意图，再针对性解答； 3. 常见问题优先使用知识库信息，无相关信息时如实告知； 4. 语言简洁友好，避免使用专业术语。 回答： """
)

# 构建对话链
conversation_chain = ConversationChain(
    llm=llm,  # 复用前面的大模型
    memory=conversation_memory,
    prompt=conversation_prompt,
    verbose=True  # 打印详细日志（调试用）
)

# 测试多轮对话
def chat_with_customer(user_input):
    # 识别意图
    intent = recognize_intent(user_input)
    print(f"意图识别结果：{intent}")
    # 执行对话链
    response = conversation_chain.run(input=user_input)
    return response

# 多轮对话测试
chat_history = ["你好，我想查一下我的订单", "订单号是 OD123456", "这个订单的物流状态怎么样了？"]
for input_text in chat_history:
    print(f"\n用户：{input_text}")
    print(f"客服：{chat_with_customer(input_text)}")

用户：你好，我想查一下我的订单 意图识别结果：查询订单 客服：你好！为了帮你查询订单，请提供你的订单号，我会为你核实订单状态~
用户：订单号是 OD123456 意图识别结果：查询订单 客服：已收到你的订单号 OD123456~ 请你稍候，我正在查询物流状态...
用户：这个订单的物流状态怎么样了？ 意图识别结果：物流咨询 客服：根据查询，你的订单 OD123456 已于今天上午 10:30 发货，目前处于"运输中"状态，预计明天送达，请你耐心等待~

def chat_with_customer_v2(user_input):
    intent = recognize_intent(user_input)
    # 复杂意图（如投诉反馈）直接转接人工
    if intent == "投诉反馈":
        return "非常抱歉给你带来不好的体验！已为你转接人工客服，请你描述具体问题，工作人员会尽快为你处理~"
    # 其他意图通过对话链解答
    response = conversation_chain.run(input=user_input)
    # 检测用户是否明确要求转接人工
    if any(word in user_input for word in ["人工", "转接", "客服人员"]):
        return "已为你转接人工客服，请你稍候..."
    return response

# 测试人工转接
print("\n用户：我要投诉，产品质量有问题！")
print(f"客服：{chat_with_customer_v2('我要投诉，产品质量有问题！')}")

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

# 加载代码生成模型（CodeLlama 7B Instruct，专为代码任务优化）
code_model_name = "codellama/CodeLlama-7b-Instruct-hf"
code_tokenizer = AutoTokenizer.from_pretrained(code_model_name)
code_model = AutoModelForCausalLM.from_pretrained(
    code_model_name,
    device_map="auto",
    load_in_8bit=True,
    trust_remote_code=True
)

# 配置代码生成 pipeline
code_generator = pipeline("text-generation", model=code_model, tokenizer=code_tokenizer, max_new_tokens=500, temperature=0.4, top_p=0.95, pad_token_id=code_tokenizer.eos_token_id)

# 代码生成函数
def generate_code(prompt, language="python"):
    # 格式化 prompt（适配 CodeLlama 指令格式）
    formatted_prompt = f"""<s>[INST] 请生成 {language} 代码，满足以下需求： {prompt} 要求： 1. 代码语法正确，可直接运行； 2. 包含必要的注释，便于理解； 3. 处理常见异常情况。 [/INST] """
    # 生成代码
    outputs = code_generator(formatted_prompt)
    code = outputs[0]["generated_text"].split("[/INST]")[-1].strip()
    # 提取代码块（去除多余文本）
    if "```" in code:
        code = code.split("```")[1].strip()
        if code.startswith(language):
            code = code[len(language):].strip()
    return code

# 测试代码生成
test_prompt = "写一个 Python 函数，计算列表中所有偶数的和，处理空列表和非整数元素的异常"
python_code = generate_code(test_prompt, language="python")
print("生成的 Python 代码：")
print(python_code)

def sum_even_numbers(numbers):
    """ 计算列表中所有偶数的和 :param numbers: 包含数字的列表 :return: 所有偶数的和 """
    if not isinstance(numbers, list):
        raise TypeError("输入必须是列表")
    total = 0
    for item in numbers:
        try:
            # 尝试将元素转换为整数
            num = int(item)
            # 判断是否为偶数
            if num % 2 == 0:
                total += num
        except (ValueError, TypeError):
            # 忽略非整数元素
            print(f"警告：元素 {item} 不是有效整数，已忽略")
    return total

# 测试示例
if __name__ == "__main__":
    test_list1 = [1, 2, 3, 4, 5, 6]
    print(f"列表 {test_list1} 的偶数和：{sum_even_numbers(test_list1)}")  # 输出 12
    test_list2 = []
    print(f"空列表的偶数和：{sum_even_numbers(test_list2)}")  # 输出 0
    test_list3 = [10, "abc", 20, 3.5, 40]
    print(f"列表 {test_list3} 的偶数和：{sum_even_numbers(test_list3)}")  # 输出 70

def fix_code(buggy_code, error_message=None):
    """ 修复有 bug 的代码 :param buggy_code: 有 bug 的代码 :param error_message: 错误信息（可选） :return: 修复后的代码 """
    error_info = f"错误信息：{error_message}" if error_message else "未提供错误信息"
    formatted_prompt = f"""<s>[INST] 请修复以下 {language} 代码中的 bug，代码功能是计算列表中所有偶数的和： 有 bug 的代码： {buggy_code}{error_info} 要求： 1. 指出原代码的 bug 所在； 2. 生成修复后的完整代码； 3. 包含测试示例验证修复效果。 [/INST] """
    outputs = code_generator(formatted_prompt)
    result = outputs[0]["generated_text"].split("[/INST]")[-1].strip()
    return result

# 测试代码修复
buggy_code = """ def sum_even_numbers(numbers): total = 0 for num in numbers: if num % 2 == 0: total += num return total """
error_message = "当输入列表包含字符串元素时，会抛出 TypeError: not all arguments converted during string formatting"
fixed_result = fix_code(buggy_code, error_message)
print("代码修复结果：")
print(fixed_result)

# 安装 Streamlit：pip3 install streamlit
import streamlit as st

# 设置页面标题
st.title("代码生成助手")

# 侧边栏配置
st.sidebar.title("配置选项")
language = st.sidebar.selectbox("编程语言", ["python", "java", "javascript", "c++"])
function_type = st.sidebar.radio("功能类型", ["代码生成", "代码修复", "代码解释"])

# 主界面输入
if function_type == "代码生成":
    prompt = st.text_area("请输入代码需求描述", height=200)
    if st.button("生成代码"):
        with st.spinner("正在生成代码..."):
            code = generate_code(prompt, language)
            st.subheader("生成的代码")
            st.code(code, language=language)
elif function_type == "代码修复":
    buggy_code = st.text_area("请输入有 bug 的代码", height=200)
    error_message = st.text_input("请输入错误信息（可选）")
    if st.button("修复代码"):
        with st.spinner("正在修复代码..."):
            fixed_result = fix_code(buggy_code, error_message)
            st.subheader("修复结果")
            st.markdown(fixed_result)
elif function_type == "代码解释":
    code = st.text_area("请输入需要解释的代码", height=200)
    if st.button("解释代码"):
        with st.spinner("正在解释代码..."):
            # 复用代码生成模型进行解释
            explanation = generate_code(f"解释以下 {language} 代码的功能、逻辑和优化建议：\n{code}", language=language)
            st.subheader("代码解释")
            st.markdown(explanation)

# 运行命令：streamlit run code_assistant.py

# 将 PyTorch 模型转换为 ONNX 格式，使用 ONNX Runtime 推理
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import onnxruntime as ort

# 导出 ONNX 模型
def export_model_to_onnx(model_name, onnx_path):
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        device_map="cpu",
        torch_dtype=torch.float16
    )
    # 虚拟输入
    dummy_input = tokenizer("测试输入", return_tensors="pt")
    # 导出 ONNX
    torch.onnx.export(
        model,
        (dummy_input["input_ids"], dummy_input["attention_mask"]),
        onnx_path,
        input_names=["input_ids", "attention_mask"],
        output_names=["logits"],
        dynamic_axes={"input_ids": {0: "batch_size", 1: "seq_len"}, "attention_mask": {0: "batch_size", 1: "seq_len"}, "logits": {0: "batch_size", 1: "seq_len"}},
        opset_version=14
    )
    print(f"ONNX 模型导出成功：{onnx_path}")

# 用 ONNX Runtime 推理
def onnx_inference(onnx_path, tokenizer, prompt):
    inputs = tokenizer(prompt, return_tensors="np")
    # 初始化 ONNX Runtime 会话
    session = ort.InferenceSession(
        onnx_path,
        providers=["CUDAExecutionProvider", "CPUExecutionProvider"]
    )
    # 推理
    outputs = session.run(None, {"input_ids": inputs["input_ids"], "attention_mask": inputs["attention_mask"]})
    # 解码输出
    logits = torch.tensor(outputs[0])
    generated_ids = torch.argmax(logits, dim=-1)
    answer = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
    return answer

# 测试 ONNX 推理
export_model_to_onnx("./llama3-8b-company-qa-quantized", "llama3_qa.onnx")
tokenizer = AutoTokenizer.from_pretrained("./llama3-8b-company-qa-quantized")
answer = onnx_inference("llama3_qa.onnx", tokenizer, "报销需要提交哪些材料？")
print(f"ONNX Runtime 推理结果：{answer}")

# 输入过滤函数
def filter_input(user_input):
    # 敏感关键词列表（可扩展）
    sensitive_keywords = ["暴力", "色情", "恐怖", "身份证", "手机号", "银行卡"]
    for keyword in sensitive_keywords:
        if keyword in user_input:
            return False, f"输入包含敏感信息 '{keyword}'，请更换输入内容"
    # 输入长度限制（最大 500 字符）
    if len(user_input) > 500:
        return False, "输入长度超过限制，请精简至 500 字符以内"
    return True, user_input

# 输出审核函数（调用第三方 API 示例）
import requests

def audit_output(generated_text):
    # 模拟调用内容审核 API
    audit_url = "https://api.example.com/content-audit"
    headers = {"Authorization": "Bearer YOUR_API_KEY"}
    data = {"text": generated_text}
    try:
        response = requests.post(audit_url, json=data, headers=headers)
        result = response.json()
        if result["status"] == "pass":
            return True, generated_text
        else:
            return False, "生成内容包含不合规信息，已拒绝展示"
    except Exception as e:
        # 审核 API 异常时，返回默认提示
        return False, "内容审核服务异常，请稍后再试"

# 集成到问答系统
def safe_qa(question):
    # 输入过滤
    input_valid, input_msg = filter_input(question)
    if not input_valid:
        return input_msg
    # 执行推理
    answer, sources = ask_qa_system(question)
    # 输出审核
    output_valid, output_msg = audit_output(answer)
    return output_msg if output_valid else output_msg

人工智能大模型应用开发：从微调适配到场景落地

一、人工智能大模型应用开发：从微调适配到场景落地

1.1 本章学习目标与重点

1.2 大模型应用开发基础：选型与环境搭建

1.2.1 大模型选型核心原则

1. 业务需求匹配

2. 性能指标评估

3. 资源约束适配

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1.2.2 主流大模型开发框架

1. 模型加载与微调框架：Hugging Face Transformers

2. 应用编排框架：LangChain

3. 知识库构建框架：LlamaIndex

1.2.3 开发环境搭建实操

1. 基础依赖安装

2. 深度学习框架安装（PyTorch）

3. 核心开发框架安装

4. 环境验证

1.3 大模型微调核心技术：适配私有数据与业务场景

1.3.1 大模型微调技术对比与选型

1.3.2 QLoRA 微调实操：消费级 GPU 适配开源大模型

1. 数据准备：构建高质量微调数据集

（1）数据集格式示例（企业知识库问答）

（2）数据集加载与预处理（使用 Hugging Face Datasets）

2. 模型与 Tokenizer 加载

3. 配置训练参数（使用 SFTTrainer）

4. 微调后模型推理与效果验证

1.3.3 LoRA 模型合并与部署准备

1. 模型合并（4bit 量化模型 → FP16 完整模型）

2. 模型量化（可选，进一步降低部署显存占用）

1.4 大模型应用开发实战：三大典型场景落地

1.4.1 场景一：企业知识库问答系统（LangChain + 向量数据库）

1. 系统架构设计

2. 完整开发代码

（1）文档解析与文本分割

（2）构建向量数据库

（3）构建 RAG 链（检索 + 生成）

3. 系统部署（FastAPI + Uvicorn）

1.4.2 场景二：智能客服系统（对话记忆 + 意图识别）

1. 系统核心组件

2. 完整开发代码

（1）意图识别模块（基于文本分类模型）

（2）对话记忆与多轮对话链

（3）人工转接逻辑集成

1.4.3 场景三：代码生成助手（代码理解 + 多语言支持）

1. 核心功能设计

2. 完整开发代码

（1）代码生成模块

（2）代码修复模块

（3）Web 界面部署（Streamlit）

1.5 大模型应用上线关键考量：性能、安全与迭代

1.5.1 性能优化：降低延迟与提升吞吐量

1. 模型层面优化

2. 部署层面优化

3. 工程层面优化

1.5.2 安全与合规：防范生成式 AI 风险

1. 输入过滤

2. 输出审核

3. 隐私保护

1.5.3 持续迭代：基于用户反馈优化模型

1. 反馈收集

2. 迭代优化

3. 版本管理

1.6 本章总结与实战建议

1.6.1 核心知识点总结

1.6.2 实战避坑指南

1.6.3 进阶学习方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具