AI大模型实战——如何本地化部署开源大模型ChatGLM3-6B

AI大模型实战——如何本地化部署开源大模型ChatGLM3-6B

一、大模型的选择

  • 当然,也有不少厂商是基于 LLaMA 爆改的,或者叫套壳,不是真正意义上的自研大模型。
  • ChatGLM-6B 和 LLaMA2 是目前开源项目比较热的两个早在 2023 年年初,国内刚兴起大模型热潮时,智谱 AI 就开源了 ChatGLM-6B,当然 130B 也可以拿过来跑,只不过模型太大,需要比较多的显卡,所以很多人就部署 6B 试玩。
  • 从长远看,信创大潮下,国产大模型肯定是首选,企业布局 AI 大模型,要么选择 MaaS 服务,调用大厂大模型 API,要么选择开源大模型,自己微调、部署,为上层应用提供服务。使用 MaaS 服务会面临数据安全问题,所以一般企业会选择私有化部署 + 公有云 MaaS 混合的方式来架构。在国产厂商里面,光从技术角度讲,我认为智谱 AI 是国内大模型研发水平最高的厂商,这也是我选择 ChatGLM-6B 的原因。
  • 还有一点需要考虑,就是 6B 参数规模为 62 亿,单张 3090 显卡就可以进行微调(P-Turing)和推理,对于中小企业而言,简直就是福音。
  • 为什么要选择ChatGLM-6B。

当前环境下,大模型百花齐放。我筛选出了一些核心玩家,你可以看一下表格。非核心的其实还有很多,这里我就不一一列举了。厂商虽然很多,但真正在研究技术的没多少,毕竟前面我们讲过,玩大模型投入非常大,光看得见的成本,包括人才、训练和硬件费用,一年就得投入几个亿,不是一般玩家能玩得起的。

在这里插入图片描述

当然,如果企业预算充足(百万以上),可以尝试 6B 的老大哥 GLM-130B,简称 130B,千亿参数规模,推理能力更强,使用 130B 的话除了 GPU 资源费用,还需要进行商业授权,这个要注意。

二、如何搞定显卡资源

玩儿大模型第一步就是要想办法解决计算资源问题,要么 CPU 要么 GPU,当然还有 TPU,不过 TPU 太小众,这里我就不介绍了。我建议你想办法申请 GPU,因为适合 CPU 计算的大模型不多,有些大模型可以在 CPU 上进行推理,但是需要使用低精度轻量化模型,而低精度下模型会失真,效果肯定不行,只适合简单把玩。如果要真正体验并应用到实际项目,必须上 GPU。那我们可以从哪些渠道去购买 GPU 呢?

购买二手显卡:无论是个人使用还是企业使用,都可以考虑在网上购买二手 RTX3090 显卡,单卡 24G 显存,8000 块左右,可以用于本地微调、推理。如果想用在产品上,也可以通过云服务做映射,提供简单的推理服务,但是不适合为大规模客户提供服务。
淘宝租赁显卡资源:适合个人学习使用,可以按天 / 周 / 月 / 年购买服务,比较灵活,成本也不高。
在线 GPU 租赁:比如 autodl、RTX3090-24G,每月大概不到 900 块钱,也很划算。不仅仅可以用来本地测试,还可以用于生产环境推理,如果用在生产环境的话,最好按照实际推理需求,评估每秒推理量(具体方法我会在大模型应用架构部分讲解),搭建高可用推理环境。
各个平台免费资源:比如阿里云 PAI 平台、智谱 AI 的开放平台等,对于新人都有一定的免费 GPU 额度,这个方式省钱,但是不推荐,因为有时需要为平台推广拉人,也挺耗时间的。

三、ChatGLM3-6B 部署

  • ChatGLM-6B 目前已经发展到第 3 代 ChatGLM3-6B,除了中英文推理,还增强了数学、代码等推理能力。根据目前的官方信息,在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 在 10B 以下的基础模型中性能是最强的,除此之外,还具有 8K、32K、128K 等多个长文理解能力版本。下面我们就一步一步来安装部署 ChatGLM3-6B,你也可以在官方文档里找到安装教程。

3.1、准备环境

操作系统推荐 Linux 环境,如 Ubuntu 或者 CentOS。

Python 推荐 3.10~3.11 版本。 Transformers 库推荐 4.36.2 版本。 Torch 推荐使用 2.0 及以上的版本,以获得最佳的推理性能。

3.2、克隆代码

克隆代码命令

git clone https://github.com/THUDM/ChatGLM3 ```![](https://i-blog.ZEEKLOGimg.cn/img_convert/f29fba3f895c491a000e7fcbbd227208.jpeg) 克隆代码 

3.3、安装依赖

显示以下内容表明依赖安装成功。

注意:要切换成国内 pip 源,比如阿里云,下载会快很多。

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/cd ChatGLM3pip install -r requirements.txt 

3.4、下载模型

如果 Huggingface 下载比较慢的话,也可以选择 ModelScope 进行下载。下载完将 chatglm3-6b 文件夹重新命名成 model 并放在 ChatGLM3 文件夹下,这一步非必需,只要放在一个路径下,在下一步提示的文件里,指定好模型文件路径即可。

使用 ModelScope 进行下载, 先pip install modelscope 然后使用python代码 from modelscope import snapshot_download model_dir = snapshot_download(“ZhipuAI/chatglm3-6b”, revision = “v1.0.0”) 他会下载到cache区,使用linux基本指令移过来就好

下载模型命令

git clone https://huggingface.co/THUDM/chatglm3-6b 

3.5、命令行模式启动

执行 python cli_demo.py。

打开文件 basic_demo/cli_demo.py,修改模型加载路径。

MODEL_PATH = os.environ.get('MODEL_PATH', '../model') 

3.6、Web 控制台模式启动

页面确实上了一个档次。

同时,官方也提供了一个全新的 web demo,支持 Chat、Tool、Code Interpreter,就在我们克隆下来的代码里,在文件夹 composite_demo 下。

cd composite_demopip install -r requirements.txtexport MODEL_PATH=../modelstreamlit run main.py 或者 python -m streamlit run main.py 

如果你的电脑有 GPU,但是显存不够,也可以通过修改模型加载脚本,在 4-bit 量化下运行,只需要 6GB 左右的显存就可以进行流程推理。

model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True, ).quantize(4).cuda() 

默认情况下,模型以 FP16 精度加载,大概需要 13GB 显存。如果你的电脑没有 GPU,只能通过 CPU 启动,6B 也是支持的,需要大概 32G 的内存。我们修改一下模型加载脚本。

model = AutoModel.from_pretrained(MODEL_PATH trust_remote_code=True).float() 

执行 python web_demo_gradio.py。

同时修改最后一行:

demo.launch(server_name="127.0.0.1", server_port=7870, inbrowser=True, share=False) 
server_name 修改为本地 IP,并指定端口 server_port 即可。 也可以设置 share=True,使用 gradio 提供的链接进行访问。

打开文件 basic_demo/web_demo_gradio.py,修改模型加载路径。

MODEL_PATH = os.environ.get('MODEL_PATH', '../model') 

四、超参数介绍

  • 系统设置好,我们基本就可以开始进行问答了,ChatGLM3-6B 采用了一种新的 Prompt 格式,看上去应该是模仿的 ChatGPT。下面我们介绍下这种提问格式。

对于以下场景,官方推荐使用这样的参数进行设置:

ChatGLM3-6B 有 3 个参数可以设置。

max_length:模型的总 token 限制,包括输入和输出的 tokens。
temperature:模型的温度。温度只是调整单词的概率分布。它最终的宏观效果是,在较低的温度下,我们的模型更具确定性,而在较高的温度下,则不那么确定。数字越小,给出的答案越精确。
top_p:模型采样策略参数。每一步只从累积概率超过某个阈值 p 的最小单词集合中进行随机采样,而不考虑其他低概率的词。只关注概率分布的核心部分,忽略了尾部。

五、新的 Prompt 格式

  • 在代码场景中,有且仅有 user、assistant、system、observation 四种角色**。observation 是外部返回的结果**,比如调用外部 API,代码执行逻辑等返回的结果,都通过 observation 返回。observation 必须放在 assistant 之后
  • 为什么会这么设计呢?
  • 首先,当前阶段的大模型经过训练后,都可以遵守系统消息,而系统消息不算用户对话的一部分,与用户是隔离的,但是可以控制模型与用户交互的范围,比如我们在 system 角色里指定模型充当 Java 技术专家,那么就可以指导模型的输出偏向于 Java 技术范围。
  • 还有一个原因就是防止用户进行输入注入攻击。在进行多轮对话的时候,每次新的对话都会把历史对话都带进去。如果我们在前面的对话中,告诉模型错误的提示,那么这些错误的提示会在后续的对话中被当作正确的上下文带进去。我们知道基于自回归的模型,会根据上下文进行内容推理,这样就可能生成错误的内容。角色可以使内容更加容易区分,增加注入攻击的复杂度。这种方式不一定能处理所有的攻击类型,类似于我们日常开发中的 XSS 注入,只能尽可能减少,完全避免有点难。

下面这个是官方提供的例子,基本把以上 4 种角色都解释清楚了。

<|system|>Answer the following questions as best as you can. You have access to the following tools:[ { "name": "get_current_weather", "description": "Get the current weather in a given location", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "The city and state, e.g. San Francisco, CA", }, "unit": {"type": "string"}, }, "required": ["location"], }, }]<|user|>今天北京的天气怎么样?<|assistant|>好的,让我们来查看今天的天气<|assistant|>get_current_weather```pythontool_call(location="beijing", unit="celsius")<|observation|>{"temperature": 22}<|assistant|>根据查询结果,今天北京的气温为 22 摄氏度。 

新的提示格式,主要是增加了几个角色,在对话场景中,有且仅有以下三种角色。

system:系统信息,出现在消息的最前面,可以指定回答问题的角色。
user:我们提的问题。
assistant:大模型给出的回复。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述
  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述
路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。
img
L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。
img
L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
img
L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。
img
L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
img
L5阶段:专题集丨特训篇 【录播课】
img


四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

Read more

开源模型应用落地-知识巩固-生产级AI服务优化(二)

开源模型应用落地-知识巩固-生产级AI服务优化(二)

一、前言     在构建基于Flask的AI接口服务时,采用蓝图(Blueprint)架构可以大幅提升应用的可管理性和扩展性。通过将不同功能模块(如用户认证、模型处理和数据管理)组织成独立的蓝图,我们可以更加清晰地划分代码结构,使团队协作和后续维护变得更加高效。同时,借助 `python-dotenv` 来管理敏感信息和环境变量,则进一步增强了应用的安全性和灵活性。通过合理的模块化设计与高效的环境设置,我们能够优化 AI 服务的开发和部署流程,提升服务的性能与用户体验。 二、术语介绍 2.1. Loguru     是一个用于 Python 的日志库,旨在简化日志记录的过程,提供比 Python 内置的 `logging` 模块更易用和更强大的功能。Loguru 不仅使得日志记录更加简单直观,还提供了许多功能,例如: 1. 简单易用:Loguru 的接口设计得非常直观,用户只需几行代码即可开始记录日志。 2. 丰富的功能:它支持多种日志级别、格式化、过滤、

By Ne0inhk
开源新势力:openGauss 在数字时代企业级开源库选型核心的竞争力

开源新势力:openGauss 在数字时代企业级开源库选型核心的竞争力

前言 在 AI 与大数据深度融合的数字化浪潮中,数据形态正从单一结构化向 “结构化 + 非结构化” 混合形态演进。而数据库作为企业数据资产的核心载体,其选型直接关系到业务连续性、数据安全性与技术前瞻性。随着开源技术成为企业级应用的主流选择,市场对数据库的需求已从单纯的 “存储与查询”,升级为对 “高性能、高安全、高可用、智能化” 综合能力的诉求。 openGauss 作为源于华为技术沉淀的企业级开源关系型数据库,凭借架构创新、技术突破与生态共建,已成为越来越多关键行业的选型之一。下面,我们就来探究 openGauss 在数据库选型中究竟具备哪些竞争力! 一、openGauss 向量数据库简介 openGauss是一款全面友好开放,携手伙伴共同打造的企业级开源关系型数据库。openGauss提供面向多核架构的极致性能、全链路的业务、数据安全、基于AI的调优和高效运维的能力。其核心架构采用 “内核 + 引擎” 的模块化设计,内核层面保留关系型数据库的 ACID 事务特性,引擎层面则集成 DataVec 向量数据库能力,形成 “结构化

By Ne0inhk
EhViewer:官方开源免费的安卓E-Hentai漫画浏览神器,官方版下载安装图文教程

EhViewer:官方开源免费的安卓E-Hentai漫画浏览神器,官方版下载安装图文教程

版本一:专业科普版(适配技术博客/二次元社区专栏) https://gitee.com/one-hundred-and-eighty-ssk/ehhttp://官方漫画项目地址 漫画项目地址:https://gitee.com/one-hundred-and-eighty-ssk/eh EhViewer是一款开源、免费、专为Android平台打造的漫画浏览工具,核心服务于E-Hentai(俗称“e站”)二次元社区,支持漫画、动漫、Cosplay等同人资源的浏览、阅读与离线下载,是二次元爱好者的移动端阅读利器。 一、先搞懂:E-Hentai与同人本的核心概念 E-Hentai是全球规模最大的同人本交流社区,主打二次元同人创作资源分享,也是圈内公认的“同人本宝库”。 很多人对“同人本(同人志)”存在误解:它并非等同于黄暴内容,而是指基于已出版作品的角色/世界观进行二次创作,或完全原创的二次元刊物——优质同人本既能满足粉丝对原作情节、角色的个性化期待,还能反向提升原创作品的热度与传播度,是二次元文化生态的重要组成部分。 二、EhViewer为何诞生? E-Hentai

By Ne0inhk