程序员转行学习AI大模型：位置编码

优质文章学习记录

06 Apr 2026 — 4 min read

原理

在前面编码器-解码器介绍中，我们发现，模型并没有记录时序相关信息，即没有感知不同词汇的位置顺序。这会引起一个问题，针对“我喜欢你”这句话，经过前面的 Embedding 处理后，再进入编码器-解码器处理，最后生成的内容，是和输入“你喜欢我”最后生成的内容是一样的，但我们知道，这两句是含义完全不一样的语句。

加入位置编码，可以解决这个问题。位置编码，通过给每个位置添加一个向量，这个向量包含了位置信息，然后把这个向量加到词汇向量上。

例如： 位置1向量：[0.1,0.2，0.3,...] 位置2向量：[0.4,0.5，0.6,...] 位置3向量：[0.7,0.8，0.9,...] “我喜欢你”，添加位置编码后： “我”在位置1：“我”的词向量 + 位置1向量 “喜欢”在位置2：“喜欢”的词向量 + 位置2向量 “你”在位置3：“你”的词向量 + 位置3向量 经过这样处理，Transformer就可以区分词的位置了。

实现

在 Transformer 中，使用的正弦位置编码。

=== 正弦位置编码的详细解释 === 1. 参数: d_model: 8 max_len: 10 2. 位置索引: position: [0.0, 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0] 3. 分母项: div_term: [1.0, 0.3162, 0.1, 0.0316] 解释: - div_term = 10000^(-2i/d_model) - i是维度索引（0, 2, 4, 6, ...） - 用于控制不同维度的频率 4. 位置编码矩阵: 形状: torch.Size([10, 8]) 数据: 位置0: [0.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 1.0] 位置1: [0.8415, 0.5403, 0.3129, 0.9499, 0.0998, 0.9950, 0.0316, 0.9995] 位置2: [0.9093, -0.4161, 0.5946, 0.8040, 0.1987, 0.9801, 0.0632, 0.9980] 位置3: [0.1411, -0.9900, 0.8120, 0.5835, 0.2955, 0.9553, 0.0948, 0.9955] 位置4: [-0.7568, -0.6536, 0.9516, 0.3073, 0.3894, 0.9211, 0.1263, 0.9920] ... 5. 解释: 公式: PE(pos, 2i) = sin(pos / 10000^(2i/d_model)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model)) 含义: - pos: 位置索引（0, 1, 2, ...） - 2i: 偶数维度（0, 2, 4, ...） - 2i+1: 奇数维度（1, 3, 5, ...） 特点: - 偶数维度用sin - 奇数维度用cos - 不同维度有不同的频率 6. 可视化: 位置编码的每个维度: - 维度0: sin(pos * freq_0) - 维度1: cos(pos * freq_0) - 维度2: sin(pos * freq_1) - 维度3: cos(pos * freq_1) - ... 不同维度的频率: - 低维度: 高频率（快速变化） - 高维度: 低频率（慢速变化） 作用: - 不同维度捕捉不同粒度的位置信息 - 低维度捕捉局部位置 - 高维度捕捉全局位置

=== 逐步演示位置编码的添加过程 === 1. 词向量: 形状: torch.Size([1, 3, 8]) 数据: 位置0: [0.1234, -0.5678, 0.9012, -0.3456, 0.7890, -0.1234, 0.5678, -0.9012] 位置1: [0.2345, -0.6789, 0.0123, -0.4567, 0.8901, -0.2345, 0.6789, -0.0123] 位置2: [0.3456, -0.7890, 0.1234, -0.5678, 0.9012, -0.3456, 0.7890, -0.1234] 2. 位置编码: 形状: torch.Size([3, 8]) 数据: 位置0: [0.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 1.0] 位置1: [0.8415, 0.5403, 0.3129, 0.9499, 0.0998, 0.9950, 0.0316, 0.9995] 位置2: [0.9093, -0.4161, 0.5946, 0.8040, 0.1987, 0.9801, 0.0632, 0.9980] 3. 添加位置编码后: 形状: torch.Size([1, 3, 8]) 数据: 位置0: [0.1234, 0.4322, 0.9012, 0.6544, 0.7890, 0.8766, 0.5678, 0.0988] 位置1: [1.0760, -0.1386, 0.3252, 0.4932, 0.9899, 0.7605, 0.7105, 0.9872] 位置2: [1.2549, -1.2051, 0.7180, 0.2362, 1.0999, 0.6345, 0.8532, 0.8746] 计算: 输出 = 词向量 + 位置编码 4. 总结: 步骤: 1. 获取词向量 2. 获取位置编码 3. 词向量 + 位置编码 结果: - 每个词的向量包含了位置信息 - Transformer可以区分不同位置的词 数据流动: 输入(1, 3, 8) ↓ Embedding ↓ 词向量(1, 3, 8) ↓ + 位置编码(1, 3, 8) ↓ 输出(1, 3, 8)

classPositionalEncoding(nn.Module):'''位置编码模块'''def__init__(self, args):super(PositionalEncoding, self).__init__()# Dropout 层# self.dropout = nn.Dropout(p=args.dropout)# block size 是序列的最大长度 pe = torch.zeros(args.block_size, args.n_embd) position = torch.arange(0, args.block_size).unsqueeze(1)# 计算 theta div_term = torch.exp( torch.arange(0, args.n_embd,2)*-(math.log(10000.0)/ args.n_embd))# 分别计算 sin、cos 结果 pe[:,0::2]= torch.sin(position * div_term) pe[:,1::2]= torch.cos(position * div_term) pe = pe.unsqueeze(0) self.register_buffer("pe", pe)defforward(self, x):# 将位置编码加到 Embedding 结果上 x = x + self.pe[:,: x.size(1)].requires_grad_(False)return x

位置编码类型

类型	特点	优点	缺点	使用模型
正弦位置编码	固定公式	不需要参数，可外推	不能学习	Transformer
可学习的位置编码	可以学习	效果可能更好	需要参数，不能外推	BERT、GPT
旋转位置编码	相对位置	适合长序列	实现复杂	LLaMA，GPT-NeoX

学习内容（Datawhale 开源学习项目）：Happy-LLM

IntelliJ IDEA 打包 Web 项目 WAR 包（含 Tomcat 部署+常见问题解决）

一、引言对于 IntelliJ IDEA 新手来说，Web 项目 WAR 包打包常因步骤多、配置深而卡壳，且多数教程仅讲“打包”却忽略“部署验证”和“问题排查”。本文将从前置准备→核心配置→打包验证→Tomcat 部署→问题解决，带你完整走通流程，避开 90% 的常见坑。二、前置准备：确认基础配置（避免起步就错）在开始打包前，先检查 3 个关键前提，缺失任一环节可能导致后续操作失败： 1. 确认项目类型：打开项目结构（快捷键 Shift+Ctrl+Alt+S），在「Modules」中查看模块类型是否为「Web Application」，若不是，

PCTF2025(web后半部分)

神秘商店打开题目只有一个登录框登录admin 利用全角来注册登录后端代码有转换，全角能够绕过后端对admin的检测，然后把全角admin识别成正常的admin，造成覆盖注册，修改admin密码注册admin，其中n为全角利用整数溢出4294967246到50，购买flag 可以直接脚本登录 import requests def exploit(): url = "http://challenge2.pctf.top:32735" session = requests.Session() print("[+] 注册管理员账户...") users = { "username": "admiｎ", "password": "123456" } response = session.post(f&

从源码到UI：DeepSeek-OCR-WEBUI镜像让部署变得简单

从源码到UI：DeepSeek-OCR-WEBUI镜像让部署变得简单 1. 为什么OCR部署总是“看着简单，动手就卡”？你有没有这样的经历：看到一个OCR项目介绍得天花乱坠，点进GitHub发现文档写得满满当当，结果自己一上手，环境配不齐、依赖报错、模型加载失败……最后只能放弃。尤其是像 DeepSeek-OCR 这样基于大模型的高性能OCR系统，虽然识别能力强大，但对新手来说，从源码部署到调通Web界面，每一步都可能踩坑。安装flash-attn时版本不匹配、模型路径没改对、端口没开放——这些问题看似小，却足以让人望而却步。但现在，这一切变了。 ZEEKLOG星图推出的 DeepSeek-OCR-WEBUI 镜像，直接把“从零搭建”变成“一键启动”。你不需要再手动配置Python环境、下载模型、修改代码，只需要点击几下，就能在浏览器里用上国产最强OCR之一。这篇文章，我会带你从实际使用角度出发，讲清楚这个镜像到底解决了什么问题，它怎么用，以及相比传统部署方式，优势在哪里。 2. DeepSeek-OCR到底强在哪？不只是“识字”

GLM-4.6V-Flash-WEB与Qwen-VL对比：视觉理解部署评测

GLM-4.6V-Flash-WEB与Qwen-VL对比：视觉理解部署评测 1. 引言随着多模态大模型在图像理解、图文生成等任务中的广泛应用，视觉语言模型（Vision-Language Model, VLM）已成为AI工程落地的重要方向。近期，智谱AI推出了轻量级开源视觉大模型 GLM-4.6V-Flash-WEB，主打“网页+API”双推理模式，宣称可在单卡环境下高效部署。与此同时，通义千问系列的 Qwen-VL 也凭借其强大的图文理解能力和开放生态受到广泛关注。本文将从模型特性、部署流程、推理性能、应用场景和开发友好性五个维度，对 GLM-4.6V-Flash-WEB 与 Qwen-VL 进行系统性对比评测，帮助开发者在实际项目中做出更合理的技术选型。 2. 模型特性对比 2.1 GLM-4.6V-Flash-WEB 核心特点 GLM-4.6V-Flash-WEB 是基于 GLM-4V 系列优化的轻量化版本，专为边缘端和本地化部署设计，具备以下关键特征：

原理

实现

位置编码类型

Read more

IntelliJ IDEA 打包 Web 项目 WAR 包（含 Tomcat 部署+常见问题解决）

PCTF2025(web后半部分)

从源码到UI：DeepSeek-OCR-WEBUI镜像让部署变得简单

GLM-4.6V-Flash-WEB与Qwen-VL对比：视觉理解部署评测