主流大模型技术解析：GPT、Llama、ChatGLM、Qwen 与 DeepSeek | 极客日志

编程语言AI算法

主流大模型技术解析：GPT、Llama、ChatGLM、Qwen 与 DeepSeek

主流大模型的技术演进与架构。涵盖 GPT 系列从 GPT-1 到 ChatGPT 的发展，重点解析 RLHF 机制。对比了 GPT 与 BERT 的区别。详细分析了开源模型如 LLaMA、ChatGLM、Qwen 和 DeepSeek 的核心特性，包括 SwiGLU、RoPE、Prefix-Decoder 及 MoE 混合专家架构。提供了硬件配置参考与开源协议说明，适合希望了解大模型底层原理与部署方案的开发者阅读。

孤勇者发布于 2026/4/6更新于 2026/7/2750 浏览

主流大模型技术解析：GPT、Llama、ChatGLM、Qwen 与 DeepSeek

GPT 系列模型

一、ChatGPT 的本质

发布者：OpenAI（2022 年 11 月 30 日）
类型：聊天机器人模型，基于自然语言处理技术
核心能力：理解语言、生成对话、撰写邮件/文案/代码、翻译等
增长数据：2 个月用户破 1 亿，日活约 1300 万

二、GPT 系列模型演进对比

模型	发布时间	参数量	核心创新	主要局限
GPT-1	2018.06	1.17 亿	引入生成式预训练 + Transformer Decoder	语言模型单向；需微调才能泛化
GPT-2	2019.02	15 亿	多任务学习 + Zero-shot 能力	无监督能力仍有限
GPT-3	2020.05	1750 亿	Few-shot 学习 + Sparse Attention	成本高、长文本不稳定、内容不可控
ChatGPT	2022.11	基于 GPT-3	引入 RLHF（人类反馈强化学习）	服务不稳定、可能生成错误信息

三、核心技术点回顾

1. GPT-1

使用单向 Transformer Decoder（去掉了 Encoder-Decoder Attention）
擅长：自然语言生成（NLG）
不擅长：自然语言理解（NLU，相比 BERT）

2. GPT-2

结构微调：Layer Normalization 前置、增加序列长度到 1024
核心理念：无监督多任务学习
贡献：验证了大模型 + 大数据的迁移能力

3. GPT-3

引入 Sparse Attention，降低复杂度 O(n²) → O(n log n)
支持 Few-shot / One-shot / Zero-shot
不再对每个任务进行微调（降低成本）

Sparse Attention 通过只让每个 token 关注局部邻居和部分远距离 token，将注意力计算复杂度从 O(n²) 降到 O(n·log n)，使 GPT-3 能够高效处理长序列文本，大幅增强了长文本处理能力，节省了计算资源用来处理更长的文本。

文章配图

4. ChatGPT

解决'模型能力不一致'问题（即训练好但实际表现不符合人类预期）
方法：RLHF（人类反馈强化学习）
- 人类对模型输出进行排序
- 训练奖励模型
- 使用强化学习优化生成策略

RLHF >> SFT、RM、PPO

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

维度	GPT	BERT
架构	Transformer Decoder	Transformer Encoder
注意力方向	单向（从左到右）	双向
擅长任务	文本生成（NLG）	文本理解（NLU）

模型	开发者	特点	开源协议
LLaMA	Meta	开源先驱，Llama 3 支持商用	Llama 协议（巨头需单独授权）
ChatGLM	清华	中英双语，6B 可跑消费级显卡	开源
Qwen	阿里	多语言，Qwen2.5 支持 1M 上下文	Apache 2.0
Baichuan	百川智能	中英双语，可商用	开源
Yi	零一万物	中英双语，34B 性能对标 LLaMA-2	开源
DeepSeek	深度求索	MoE 架构，671B 参数，MIT 协议	MIT（最宽松）

# 共享 + 路由专家模型
import torch
import torch.nn as nn
import torch.nn.functional as F

# ===================== 专家网络定义 =====================
class Expert(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super().__init__()
        # 第一层全连接层，将输入维度映射到隐藏层维度
        self.fc1 = nn.Linear(input_dim, hidden_dim)
        # 第二层全连接层，将隐藏层映射到输出维度
        self.fc2 = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        # 先经过第一层并激活
        x = F.relu(self.fc1(x))
        # 再经过第二层输出
        return self.fc2(x)

# ===================== 路由门控网络定义 =====================
class RoutingGate(nn.Module):
    def __init__(self, input_dim, num_routed_experts, k=2):
        super().__init__()
        # 全连接层输出每个专家的分数
        self.fc = nn.Linear(input_dim, num_routed_experts)
        self.k = k  # Top-k，表示每个输入只选择 k 个专家

    def forward(self, x):
        # logits: [batch, num_routed_experts]，每个专家的分数
        logits = self.fc(x)
        # 取 Top-k 分数及其索引
        topk_val, topk_idx = torch.topk(logits, self.k, dim=-1)
        # 对 Top-k 分数做 softmax，得到归一化权重
        weights = F.softmax(topk_val, dim=-1)
        print("weights:", weights)
        # 构造与 logits 同形状的全零权重
        routed_weights = torch.zeros_like(logits)
        # 将 Top-k 权重填入对应位置，其余为 0
        routed_weights.scatter_(-1, topk_idx, weights)
        print("Routed weights:", routed_weights)
        return routed_weights  # [batch, num_routed_experts]

# ===================== MoE 主结构：包含路由专家和共享专家 =====================
class MoEWithRouting(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim, num_routed_experts, num_shared_experts, k=2):
        super().__init__()
        # 路由专家列表，每个专家是一个 Expert 实例
        self.routed_experts = nn.ModuleList(
            [Expert(input_dim, hidden_dim, output_dim) for _ in range(num_routed_experts)]
        )
        # 共享专家列表
        self.shared_experts = nn.ModuleList(
            [Expert(input_dim, hidden_dim, output_dim) for _ in range(num_shared_experts)]
        )
        # 路由门控网络
        self.routing_gate = RoutingGate(input_dim, num_routed_experts, k)
        # 共享专家的权重参数（可学习），初始均分
        self.shared_weights = nn.Parameter(
            torch.ones(num_shared_experts) / num_shared_experts, requires_grad=True
        )

    def forward(self, x):
        # ========== 路由专家部分 ==========
        # 计算每个输入分配到各个路由专家的权重 [batch, num_routed_experts]
        routed_weights = self.routing_gate(x)
        print("routed_weights:", routed_weights)
        # 计算所有路由专家的输出，堆叠成 [batch, output_dim, num_routed_experts]
        routed_outputs = torch.stack(
            [expert(x) for expert in self.routed_experts], dim=2
        )
        print("routed_outputs:", routed_outputs)
        # 按权重加权求和，得到路由专家的最终输出 [batch, output_dim]
        routed_result = torch.sum(routed_weights.unsqueeze(1) * routed_outputs, dim=2)
        print("routed_result:", routed_result)

        # ========== 共享专家部分 ==========
        # 计算所有共享专家的输出，堆叠成 [batch, output_dim, num_shared_experts]
        shared_outputs = torch.stack(
            [expert(x) for expert in self.shared_experts], dim=2
        )
        # 对共享专家权重做 softmax 归一化 [num_shared_experts]
        shared_weights = F.softmax(self.shared_weights, dim=0)
        # 按权重加权求和，得到共享专家的最终输出 [batch, output_dim]
        shared_result = torch.sum(
            shared_weights.unsqueeze(0).unsqueeze(1) * shared_outputs, dim=2
        )

        # ========== 融合输出 ==========
        # 路由专家输出与共享专家输出相加，作为最终输出
        output = routed_result + shared_result
        return output

# ===================== 测试代码 =====================
# 定义各参数
input_dim = 10  # 输入特征维度
hidden_dim = 20  # 专家网络隐藏层维度
output_dim = 5  # 输出特征维度
num_routed_experts = 4  # 路由专家数量
num_shared_experts = 2  # 共享专家数量
k = 2  # Top-k，路由门控每次选择的专家数
seq_len = 8  # 输入序列长度（batch size）

# 实例化模型
model = MoEWithRouting(
    input_dim, hidden_dim, output_dim,
    num_routed_experts, num_shared_experts, k
)

# 构造随机输入
x = torch.randn(seq_len, input_dim)

# 前向传播
output = model(x)

# 打印输出形状和内容
print("Output shape:", output.shape, output)  # [seq_len, output_dim]

"""
═══════════════════════════════════════════════════════════════
输入数据 x 形状：[8, 10] (batch=8, dim=10)
═══════════════════════════════════════════════════════════════
│ ┌─────────────────┼─────────────────┐ │ │ │ ▼ ▼ ▼ ┌────────┐ ┌────────┐ ┌────────┐ │门控网络│ │路由专家│ │共享专家│ │ │ │ (4 个) │ │ (2 个) │ └────────┘ └────────┘ └────────┘ │ │ │ ▼ ▼ ▼ ┌────────┐ ┌────────────────────────────┐ │[8,4] │ │ 每个专家内部：│ │(权重) │ │ ┌────────────────────────┐ │ └────────┘ │ │ 输入：[8,10] │ │ │ │ │ ↓ │ │ │ │ │ fc1: Linear(10→20) │ │ │ │ │ ↓ │ │ │ │ │ ReLU │ │ │ │ │ ↓ │ │ │ │ │ fc2: Linear(20→5) │ │ │ │ │ ↓ │ │ │ │ │ 输出：[8,5] │ │ │ │ └────────────────────────┘ │ │ │ │ │ │ 4 个专家各自输出：│ │ │ E0: [8,5] │ │ │ E1: [8,5] │ │ │ E2: [8,5] │ │ │ E3: [8,5] │ │ │ ↓ │ │ │ stack(dim=2) │ │ │ ↓ │ │ │ [8,5,4] ←────────────┐ │ │ │ │ │ │ └───────────────────────┼────┘ │ │ ▼ ▼ ┌─────────────────────────────────────────────────┐ │ 路由加权求和：[8,1,4] × [8,5,4] = [8,5,4] │ │ sum(dim=2) → [8,5] │ └─────────────────────────────────────────────────┘ │ ▼ routed_result: [8,5] │ │ ┌────────────────────────────┐ │ │ 共享专家 (2 个): │ │ │ 每个专家内部：│ │ │ 输入：[8,10] │ │ │ ↓ │ │ │ fc1: Linear(10→20) │ │ │ ↓ │ │ │ ReLU │ │ │ ↓ │ │ │ fc2: Linear(20→5) │ │ │ ↓ │ │ │ 输出：[8,5] │ │ │ │ │ │ S0: [8,5] │ │ │ S1: [8,5] │ │ │ ↓ │ │ │ stack(dim=2) │ │ │ ↓ │ │ │ [8,5,2] │ │ └────────────────────────────┘ │ │ │ ▼ │ shared_weights: [2] │ │ │ ▼ │ ┌─────────────────────────────┐ │ │ 共享加权求和：│ │ │ [1,1,2] × [8,5,2] = [8,5,2] │ │ │ sum(dim=2) → [8,5] │ │ └─────────────────────────────┘ │ │ │ ▼ │ shared_result: [8,5] │ │ └──────┬───────┘ ▼ ┌─────────────────────────┐ │ 最终输出 = routed + shared │ │ [8,5] + [8,5] = [8,5] │ └─────────────────────────┘ │ ▼ ════════════════════════════ 最终输出：[8, 5] ════════════════════════════
"""

模型大小	推理显存 (FP16)	推荐场景
7B	10-14 GB	中小企业应用
13B	20-26 GB	企业级应用
32B	64-70 GB	复杂 NLP 任务
70B	140 GB+	超大规模任务
304B+	600 GB+（需量化）	国家/科研级

协议	特点	代表模型
MIT	最宽松，可自由商用	DeepSeek
Apache 2.0	含专利授权	Qwen、Grok-1
Llama 协议	月活超 7 亿需单独授权	LLaMA 系列
MCP	模型上下文协议（Anthropic）	标准化 AI 工具调用

主流大模型技术解析：GPT、Llama、ChatGLM、Qwen 与 DeepSeek

GPT 系列模型

一、ChatGPT 的本质

二、GPT 系列模型演进对比

三、核心技术点回顾

1. GPT-1

2. GPT-2

3. GPT-3

4. ChatGPT

更多推荐文章

相关免费在线工具

四、GPT vs BERT 本质区别

五、ChatGPT 优缺点总结

✅ 优点

❌ 缺点

六、GPT 总结

LLM 主流开源大模型

一、主流大模型概览

二、各模型核心亮点

🦙 LLaMA（Meta）

🇨🇳 ChatGLM（清华）

☁️ Qwen（阿里）

🔥 DeepSeek（深度求索）

三、硬件配置参考（本地部署）

四、开源协议速查

五、一句话总结

更多推荐文章

相关免费在线工具

主流大模型技术解析：GPT、Llama、ChatGLM、Qwen 与 DeepSeek

GPT 系列模型

一、ChatGPT 的本质

二、GPT 系列模型演进对比

三、核心技术点回顾

1. GPT-1

2. GPT-2

3. GPT-3

4. ChatGPT

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、GPT vs BERT 本质区别

五、ChatGPT 优缺点总结

✅ 优点

❌ 缺点

六、GPT 总结

LLM 主流开源大模型

一、主流大模型概览

二、各模型核心亮点

🦙 LLaMA（Meta）

🇨🇳 ChatGLM（清华）

☁️ Qwen（阿里）

🔥 DeepSeek（深度求索）

三、硬件配置参考（本地部署）

四、开源协议速查

五、一句话总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具