文心一言大模型本地部署与微调应用实战 | 极客日志

PythonAI算法

文心一言大模型本地部署与微调应用实战

介绍百度文心一言（ERNIE 4.5）大模型的本地部署与微调流程。内容涵盖环境准备、模型下载、基于公开 QA 数据集的微调训练及效果评估。通过 Gradio 搭建本地交互服务，展示 LoRA 或原生微调方法，并分析 Perplexity、BLEU 等指标，为开发者提供中文大模型私有化落地的参考方案。

心动瞬间发布于 2026/4/5更新于 2026/5/2445 浏览

一、前言

1.1 模型开源意义与背景

2025 年，百度文心大模型（ERNIE 4.5）正式开源，标志着中国 AI 基础模型生态迈入新阶段。回顾近年 AI 发展，OpenAI、Google、Meta 等国际巨头通过大模型开源推动了全球 AI 创新浪潮，但国内长期受限于算力、数据、算法壁垒，缺乏具备国际竞争力的自主大模型。百度此次全面开放文心一言，不仅降低了开发门槛，更为中国 AI 产业自主可控、生态共建提供了坚实基础。

开源的意义远不止'免费可用'。它代表着知识共享、社区协作和技术透明，能够加速模型优化、促进多样化应用创新，并推动学术与产业的深度融合。更重要的是，开源大模型为中小企业、科研机构、个人开发者提供了与国际前沿技术'同台竞技'的机会，有望打破技术垄断，推动中国 AI 生态的繁荣与自主创新。

1.2 文心一言大模型简介

近年来，大语言模型（LLM, Large Language Models）快速崛起，已经成为 AI 领域最炙手可热的技术核心。国内外涌现出一系列代表性产品，如 GPT-4、Claude、Gemini，以及国内的百川、清言、月之暗、天工等。

在这一浪潮中，百度研发的 文心一言（ERNIE Bot） 系列模型，以其强大的中文理解与生成能力、广泛的行业适配性以及持续的技术演进，成为国产大模型的代表之一。

文心一言不是单一的模型，而是百度深度学习研究多年的成果结晶，集成了 ERNIE（知识增强预训练模型）、PaddlePaddle（国产深度学习框架）等一整套技术体系。

技术亮点简要概括如下：

中文理解能力突出：擅长处理中文问答、摘要生成、内容创作等任务；
技术持续更新：从 ERNIE 3.0 到 ERNIE 4.0，再到如今的 ERNIE 4.5，模型不断演进，参数规模与推理能力大幅提升；
多模态支持：不仅支持文本，还扩展到图文理解、图像生成、语音识别等多模态任务；
产业化落地：广泛应用于金融、医疗、政务、教育等多个行业场景。

文心一言大模型的逐步开源，标志着百度迈出了'普惠智能'的关键一步，为开发者、科研人员、本地部署爱好者提供了极具实用价值的 AI 工具。

1.3 测评目标与思路

随着百度正式开源文心一言系列大模型，越来越多开发者希望在本地搭建并微调这些模型，以适配具体业务场景。然而，对于普通用户来说，如何快速部署、如何选择模型、如何评估微调效果，仍是一大难题。

本次测评的目标就是：用最小的成本、最清晰的流程、最直观的反馈，完成一次完整的 ERNIE 大模型本地部署 + 精简微调实验。

我们希望通过实战操作，回答以下几个关键问题：

✅ 文心一言模型是否容易上手？
✅ 部署一套完整的推理服务到底需要多少步骤？
✅ 对于中文问答类任务，小规模数据能否带来显著微调效果？
✅ 开源模型的输出质量是否具备通用性与实用性？

测评流程如下：

流程阶段	操作目标	工具/资源
环境准备	创建 Python 虚拟环境，安装依赖	Conda / pip
模型部署	加载 ERNIE 预训练模型，实现基础问答	GitCode+ Transformers + Gradio
数据准备	构建小样本中文问答数据	自制或开源精简 JSON 数据集
微调训练	使用 LoRA 或原生微调方式	PyTorch + Transformers
部署测试	将微调后的模型部署到网页端	Gradio 本地服务
效果对比	原始 vs 微调模型效果对比	人工分析 / 案例测评

通过这一流程，我们希望验证 ERNIE 4.5 系列模型在本地部署与轻量化场景下的实用性与灵活性。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

模型名称	参数规模	模型风格	说明
ERNIE-4.5-0.3B-Base-PT	0.3B	基础模型	支持 CausalLM 微调
ERNIE-4.5-0.3B-LLaMA-PT	0.3B	LLaMA 格式	兼容 LLaMA 微调脚本
ERNIE-4.5-0.3B-Chat-PT	0.3B	对话风格	自带 instruction 数据训练
ERNIE-Speed / ERNIE-Tiny 系列	数百万级至亿级	推理/轻量模型	适合移动端与边缘设备部署

项目	配置
操作系统	Windows 10 / 11
Python 版本	Python 3.9
构建方式	Conda 虚拟环境 + Transformers
显卡支持	可选 GPU，推荐 RTX 30/40 系列
接口平台	Gradio（网页交互）
运行平台	Pycharm

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 
pip install transformers datasets gradio accelerate

./models/ERNIE-4.5-0.3B-Base-PT/

./ernie4.5-finetuned/checkpoint-750/

import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载 tokenizer 和模型
tokenizer = AutoTokenizer.from_pretrained("./models/ERNIE-4.5-0.3B-Base-PT", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("./ernie4.5-finetuned/checkpoint-750", trust_remote_code=True)
model.eval()
model.to("cuda" if torch.cuda.is_available() else "cpu")

# 推理函数
def generate_response(prompt):
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=256)
    input_ids = inputs["input_ids"].to(model.device)
    attention_mask = inputs["attention_mask"].to(model.device)
    with torch.no_grad():
        output = model.generate(
            input_ids=input_ids,
            attention_mask=attention_mask,
            max_new_tokens=128,
            do_sample=True,
            top_p=0.95,
            temperature=0.9,
            repetition_penalty=1.2,
            eos_token_id=tokenizer.eos_token_id or tokenizer.pad_token_id,
            pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id
        )
    return tokenizer.decode(output[0][input_ids.shape[1]:], skip_special_tokens=True)

# Gradio 页面
iface = gr.Interface(
    fn=generate_response,
    inputs=gr.Textbox(lines=2, label="输入问题"),
    outputs=gr.Textbox(lines=4, label="模型回答"),
    title="ERNIE 4.5 微调模型测试"
)
iface.launch(server_name="0.0.0.0", server_port=7860)

import json
import random

def split_dataset(json_file, train_ratio=0.8, val_ratio=0.1, test_ratio=0.1, seed=42):
    with open(json_file, 'r', encoding='utf-8') as f:
        data = [json.loads(line) for line in f]
    random.seed(seed)
    random.shuffle(data)
    n = len(data)
    train_end = int(n * train_ratio)
    val_end = int(n * (train_ratio + val_ratio))
    train_data = data[:train_end]
    val_data = data[train_end:val_end]
    test_data = data[val_end:]
    return train_data, val_data, test_data

def save_jsonl(filename, data):
    with open(filename, 'w', encoding='utf-8') as f:
        for item in data:
            f.write(json.dumps(item, ensure_ascii=False)+'\n')

train_data, val_data, test_data = split_dataset("train_100percent_sample.json")
save_jsonl("train.json", train_data)
save_jsonl("val.json", val_data)
save_jsonl("test.json", test_data)

# 加载模型和分词器
model_name = "./models/ERNIE-4.5-0.3B-Base-PT"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)

dataset = load_dataset("json", data_files={"train":"train.json","validation":"val.json","test":"test.json"})

def preprocess(example):
    prompt = example["input"]
    response = example["output"]
    prompt_ids = tokenizer(prompt, truncation=True, max_length=256, add_special_tokens=False)
    response_ids = tokenizer(response, truncation=True, max_length=256, add_special_tokens=False)
    input_ids = prompt_ids["input_ids"]+ response_ids["input_ids"]
    attention_mask =[1]*len(input_ids)
    labels =[-100]*len(prompt_ids["input_ids"])+ response_ids["input_ids"]
    pad_len =512-len(input_ids)
    if pad_len >0:
        input_ids +=[tokenizer.pad_token_id]* pad_len
        attention_mask +=[0]* pad_len
        labels +=[-100]* pad_len
    else:
        input_ids = input_ids[:512]
        attention_mask = attention_mask[:512]
        labels = labels[:512]
    return{"input_ids": input_ids,"attention_mask": attention_mask,"labels": labels }

tokenized_datasets = dataset.map(
    preprocess, batched=False, remove_columns=dataset["train"].column_names
)

training_args = TrainingArguments(
    output_dir="/root/autodl-tmp/ernie4.5-QA3",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    save_steps=100,
    logging_steps=10,
    learning_rate=2e-5,
    fp16=True,
    save_total_limit=1,
    #evaluation_strategy="epoch", # 每个 epoch 评估一次
    logging_dir="./logs",
    report_to="none",# 不用 wandb
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
    callbacks=[loss_recorder],
)
trainer.train()

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "/root/autodl-tmp/ernie4.5-QA/checkpoint-14750"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
model.eval()
model.to("cuda" if torch.cuda.is_available() else "cpu")

def generate_response(prompt):
    inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=256)
    input_ids = inputs["input_ids"]
    attention_mask = inputs["attention_mask"]
    # Ensure input_ids are 2D
    if input_ids.dim()==1:
        input_ids = input_ids.unsqueeze(0)
    # Modify attention_mask to be 2D
    if attention_mask.dim()!=2:
        attention_mask = attention_mask.view(input_ids.shape[0],-1)
    input_ids = input_ids.to(model.device)
    attention_mask = attention_mask.to(model.device)
    with torch.no_grad():
        output = model.generate(
            input_ids=input_ids,
            attention_mask=attention_mask,
            max_new_tokens=128,
            do_sample=True,
            top_p=0.95,
            temperature=0.9,
            repetition_penalty=1.2,
            eos_token_id=tokenizer.eos_token_id if tokenizer.eos_token_id is not None else tokenizer.pad_token_id,
            pad_token_id=tokenizer.pad_token_id if tokenizer.pad_token_id is not None else tokenizer.eos_token_id
        )
        generated_tokens = output[0][input_ids.shape[1]:]
        response = tokenizer.decode(generated_tokens, skip_special_tokens=True)
    return response.strip()

if __name__ == "__main__":
    print("ERNIE 4.5 微调模型控制台问答，输入 exit 或空行退出。")
    while True:
        prompt = input("\n请输入问题：\n")
        if not prompt.strip() or prompt.strip().lower()=="exit":
            print("已退出。")
            break
        response = generate_response(prompt)
        print("\n模型回答：\n"+ response)

split_dataset = raw_dataset.train_test_split(test_size=0.1, seed=42)
train_val = split_dataset['train']
test = split_dataset['test']

def preprocess(example):
    prompt = example["input"]
    response = example["output"]
    prompt_ids = tokenizer(prompt, truncation=True, max_length=256, add_special_tokens=False)
    response_ids = tokenizer(response, truncation=True, max_length=256, add_special_tokens=False)
    input_ids = prompt_ids["input_ids"] + response_ids["input_ids"]
    attention_mask = [1] * len(input_ids)
    labels = [-100] * len(prompt_ids["input_ids"]) + response_ids["input_ids"]
    pad_len = 512 - len(input_ids)
    if pad_len > 0:
        input_ids += [tokenizer.pad_token_id] * pad_len
        attention_mask += [0] * pad_len
        labels += [-100] * pad_len
    else:
        input_ids = input_ids[:512]
        attention_mask = attention_mask[:512]
        labels = labels[:512]
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }

plt.figure(figsize=(8,5))
plt.plot(loss_history.train_loss, label="Train Loss")
plt.plot(loss_history.epochs, loss_history.eval_loss, label="Validation Loss")
plt.xlabel("Steps/Epochs")
plt.ylabel("Loss")
plt.legend()
plt.title("Training and Validation Loss")
plt.savefig("loss_curve.png")
plt.show()

bleu = sacrebleu.corpus_bleu(preds,[refs])
bleu_score = bleu.score
print(f"BLEU: {bleu_score:.4f}")
scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)
rouge_l_scores =[scorer.score(ref, pred)['rougeL'].fmeasure for pred, ref in zip(preds, refs)]
rouge_l = np.mean(rouge_l_scores)
print(f"ROUGE-L: {rouge_l:.4f}")
print("\n评估指标：")
print(f"Perplexity: {perplexity:.2f}")
print(f"BLEU: {bleu_score:.4f}")
print(f"ROUGE-L: {rouge_l:.4f}")

文心一言大模型本地部署与微调应用实战

一、前言

1.1 模型开源意义与背景

1.2 文心一言大模型简介

1.3 测评目标与思路

更多推荐文章

相关免费在线工具

二、文心一言大模型

2.1 文心一言开源概况

2.2 文心一言大模型技术综述

三、文心一言大模型深度解析

3.1 开源策略与生态影响

3.1.1 开源时间与版本介绍

3.2 模型特性与优势

四、部署实战：从下载 ERNIE-4.5-0.3B 模型到本地可交互服务

4.1 环境准备与部署方式

4.2 下载与安装步骤

4.3 调用示例与接口说明

编写部署测试脚本

五、使用公开的 QA 数据集微调模型

5.1 数据准备

5.2 微调流程

5.2.1 配置环境与安装依赖

5.2.2 加载预训练模型

5.2.3 数据集加载与预处理

5.2.4 配置训练参数

5.2.5 训练与微调模型

5.3 效果测试

5.4 评估结果量化分析

六、总结

6.1 模型开源价值 🚀

6.2 后续使用与研究建议 📌

更多推荐文章

相关免费在线工具

指标	分数
Perplexity	2.12
BLEU	26.7288
ROUGE-L	0.4076

文心一言大模型本地部署与微调应用实战

一、前言

1.1 模型开源意义与背景

1.2 文心一言大模型简介

1.3 测评目标与思路

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、文心一言大模型

2.1 文心一言开源概况

2.2 文心一言大模型技术综述

三、文心一言大模型深度解析

3.1 开源策略与生态影响

3.1.1 开源时间与版本介绍

3.2 模型特性与优势

四、部署实战：从下载 ERNIE-4.5-0.3B 模型到本地可交互服务

4.1 环境准备与部署方式

4.2 下载与安装步骤

4.3 调用示例与接口说明

编写部署测试脚本

五、使用公开的 QA 数据集微调模型

5.1 数据准备

5.2 微调流程

5.2.1 配置环境与安装依赖

5.2.2 加载预训练模型

5.2.3 数据集加载与预处理

5.2.4 配置训练参数

5.2.5 训练与微调模型

5.3 效果测试

5.4 评估结果量化分析

六、总结

6.1 模型开源价值 🚀

6.2 后续使用与研究建议 📌

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具