语言模型基础：本地部署开源大模型实战 | 极客日志

PythonAI算法

语言模型基础：本地部署开源大模型实战

综述由AI生成如何在本地私有化部署开源大语言模型，以解决敏感数据处理及成本控制需求。通过 Hugging Face Transformers 库，演示了环境配置、模型加载（Qwen1.5-0.5B）、对话模板构建及文本生成的完整流程。此外，还分析了闭源与开源模型的选型策略，涵盖性能、成本、速度、上下文窗口等八个关键考量维度，帮助开发者根据实际场景选择合适的模型方案。

无尘发布于 2026/3/28更新于 2026/5/2323 浏览

在上一篇中，我们深入了解了分词器是如何将文本转化为数字的。

到现在为止，我们已经掌握了理论，也通过 API 体验了云端大模型。但在处理敏感数据、需要离线运行或精细控制成本的场景下，将大模型私有化部署到本地电脑是 Agent 开发者的必备技能。本篇将带你动手，使用 Hugging Face 库在自己的电脑上运行一个真实的开源大模型。

3.2.3 调用开源大语言模型

在第一章中，我们通过 API 来驱动智能体。这是一种快速、便捷的方式，但并非唯一。对于许多企业级应用，将大语言模型直接部署在本地就显得至关重要。

我们将使用 Hugging Face Transformers，这是一个强大的开源库，提供了标准化的接口来加载和使用数以万计的预训练模型。

1. 环境配置与模型选择

为了让大多数读者都能在个人电脑上顺利运行，我们特意选择了一个小规模但功能强大的模型：Qwen/Qwen1.5-0.5B-Chat。

出品方：阿里巴巴达摩院
参数量：约 5 亿 (0.5B)
特点：体积小、性能优异，非常适合入门学习和本地部署。

首先，请确保你已经安装了必要的库：

pip install transformers torch

2. 加载模型与分词器

在 transformers 库中，我们通常使用两个核心类：

AutoModelForCausalLM：自动加载与模型匹配的因果语言模型权重。
AutoTokenizer：自动加载对应的分词器。

以下代码会自动从 Hugging Face Hub 下载所需文件（取决于网速，可能需要一些时间）：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 指定模型 ID
model_id = "Qwen/Qwen1.5-0.5B-Chat"
# 设置设备，优先使用 GPU (CUDA)，否则使用 CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_id)
# 加载模型，并将其移动到指定设备
model = AutoModelForCausalLM.from_pretrained(model_id).to(device)
print("模型和分词器加载完成！")

3. 准备对话输入

Qwen1.5-Chat 模型遵循特定的对话模板。我们需要构建一个包含 system（系统设定）和 user（用户指令）的消息列表，然后使用分词器的 apply_chat_template 方法将其格式化。


messages = [{: , : }, {: , : }]




text = tokenizer.apply_chat_template(messages, tokenize=, add_generation_prompt=)


model_inputs = tokenizer([text], return_tensors=).to(device)
()
(model_inputs)

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

# 使用模型生成回答
# max_new_tokens 控制了模型最多能生成多少个新的 Token
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512)

# 将生成的 Token ID 截取掉输入部分
# 这样我们只解码模型新生成的部分，不包含我们发给它的问题
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

# 解码生成的 Token ID
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print("\n模型的回答:")
print(response)

语言模型基础：本地部署开源大模型实战

3.2.3 调用开源大语言模型

1. 环境配置与模型选择

2. 加载模型与分词器

3. 准备对话输入

更多推荐文章

相关免费在线工具

4. 生成与解码

3.2.4 模型的选择

3.2.4.1 模型选型的 8 个关键考量

3.2.4.2 闭源模型概览

3.2.4.3 开源模型概览

更多推荐文章

相关免费在线工具

语言模型基础：本地部署开源大模型实战

3.2.3 调用开源大语言模型

1. 环境配置与模型选择

2. 加载模型与分词器

3. 准备对话输入

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 生成与解码

3.2.4 模型的选择

3.2.4.1 模型选型的 8 个关键考量

3.2.4.2 闭源模型概览

3.2.4.3 开源模型概览

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具