Qwen3论文阅读

优质文章学习记录

12 Apr 2026 — 6 min read

1、核心架构改进：

1）注意力机制：

采用了 GQA (Grouped Query Attention) 以提高推理效率

什么是GQA注意力机制？

介于传统的多头注意力机制以及极简的MQA注意力机制之间，目标为平衡生成速度以及模型精度

首先我们先看一看多头注意力机制以及多询注意力机制的区别

MHA (Multi-Head Attention): 每个 Query (Q) 都有对应的 Key (K) 和 Value (V)。虽然效果最好，但在推理时需要缓存大量的 KV 状态（KV Cache），导致内存占用高，推理速度慢。

MQA (Multi-Query Attention): 所有的 Q 共享同一组 K 和 V。这极大地减少了内存占用和数据传输，速度极快，但由于表达能力大幅下降，模型性能（准确度）通常会受损。

GQA：把query分成若干组每一组共享KV

详细的计算流程：

假设我们输入一个128length的token序列，模型中存储了一个计算query的矩阵Wq，大小为[512,512],X x Wq = Total_Q,得到一个[128,512]的结果，后续在物理上计算结束后，会将512维切位8份，每一份即为[128,64]于是就得到了8个query

若分为两组那么每四个query为一组，共享一个KV。

2）RMSNorm

RMSNorm 是标准 LayerNorm（层规范化）的一种简化变体，旨在提高计算效率

节省计算开销

此外还采用了前置规范化

后置规范化（post-norm）：

先做子层操作（如 Attention 或 FFN）并与输入相加，最后整体做一次 Norm。

前置规范化 (Pre-Norm)：

输入先经过 Norm，然后再进入子层操作，最后将结果加回原始输入。

3）SwiGLU激活函数：

传统的激活函数如下所示

SwiGLU 的核心改进是将 GLU 中的 Sigmoid 函数替换为 Swish 激活函数。

在 Qwen3 的 Transformer 块中，前馈网络（FFN）层利用 SwiGLU 进行非线性变换，计算逻辑由三个矩阵组成Wgate，Wup，Wdown，SiLU为Swish函数

门控分支：当x小于0时，SiLU激活函数迅速将其切断，变为0，切断其向下传递的渠道

QK-Norm：在进行注意力计算时，对Q和K进行归一化（防止注意力瘫缩）

对Q和K进行归一化的方法：对每个矩阵的每个向量进行归一化，在训练过程中，必须要使用半精度来节省显存，所以进行归一化恢复对向量的敏感并且防止数据溢出。

2、后训练pipeline

整体的结构如下所示：

旗舰模型采用四阶段的后训练模式，前面两个阶段注重思考推理，后面的阶段注重非思考能力

1）长思维链冷启动阶段（long-CoT Cold Start）

采用qwen2.5-72B进行数据清洗，剔除掉不需要思考可以直接回答的问题

冷启动的作用：

建立初始模式：通过精选的子集进行初始训练，旨在模型中植入基础的推理模式。

为 RL 留白：训练时故意不追求极端的推理表现，以防模型产生路径依赖，从而为后续强化学习（RL）阶段留出更大的改进空间和灵活性。

极简主义：在冷启动阶段，倾向于最小化训练样本数和训练步数，保持模型的“潜力”

2）推理强化学习阶段（Reasoning-RL）

采用GRPO的强化学习策略进行训练

训练策略：

使用大 Batch Size（大批次）和高 Rollouts（每个问题生成多个答案）。

使用 Off-policy（离线策略）训练来提高样本效率。

通过控制**熵（Entropy）**来平衡“探索”与“利用”，防止模型过早陷入局部最优。

3）通用强化学习阶段（general rl）

奖励函数的设计：

奖励类型	原理	优点	解决的问题
(1) 基于规则 (Rule-based)	用代码/正则硬性判断	极其精准，不可作弊	判断格式是否正确、长度是否达标、代码是否可运行。
(2) 有参考答案的模型打分 (Model-based w/ Ref)	让 Qwen2.5-72B 对照标准答案给学生（新模型）打分	灵活且标准明确	避免规则太死板导致的“误判”（比如意思对但字不同）。
(3) 无参考答案的模型打分 (Model-based w/o Ref)	用人类偏好训练出一个 Reward Model（奖励模型）直接打分	适用范围最广	处理主观问题，提升回答的“高级感”和好感度。

4）强对弱蒸馏（Strong-to-Weak Distillation）

stage1:离线蒸馏

将大模型的答案直接喂给小模型进行训练，相当于直接是sft阶段监督训练。

stage2:在线蒸馏

让小模型自己针对某个问题生成回答（On-policy）。与此同时，让更强大的老师模型（如 Qwen3-235B）也针对同样的问题给出一个输出概率分布，计算 KL 散度（KL Divergence）：通过数学手段缩小“学生”和“老师”在逻辑预测上的差距（对齐 Logits）。

Neo4j（一） - Neo4j安装教程（Windows）

文章目录 * 前言 * 一、JDK与Neo4j版本对应关系 * 二、JDK11安装及配置 * 1. JDK11下载 * 2. 解压 * 3. 配置环境变量 * 3.1 打开系统属性设置 * 3.2 新建系统环境变量 * 3.3 编辑 PATH 环境变量 * 3.4 验证环境变量是否配置成功 * 三、Neo4j安装（Windows） * 1. 下载并解压Neo4j安装包 * 1.1 下载 * 1.2 解压 * 2. 配置环境变量 * 2.1 打开系统属性设置 * 2.2 编辑 PATH 环境变量 * 2.3 验证环境变量是否配置成功

【论文翻译】YOLO26: KEY ARCHITECTURAL ENHANCEMENTS AND PERFORMANCE BENCHMARKING FOR REAL-TIME OBJECT DETEC

YOLO26：实时目标检测的关键架构改进与性能基准测试摘要本研究对Ultralytics YOLO26进行了全面分析，重点阐述了其在实时边缘目标检测领域的关键架构改进与性能基准测试结果。YOLO26于2025年9月发布，是YOLO系列中最新、最先进的模型，专为在边缘设备和低功耗设备上实现高效能、高精度和部署就绪性而设计。论文依次详细介绍了YOLO26的架构创新，包括移除分布焦点损失（DFL）、采用端到端无非极大值抑制（NMS）推理、集成渐进式损失（ProgLoss）和小目标感知标签分配（STAL），以及引入MuSGD优化器以实现稳定收敛。除架构外，该研究将YOLO26定位为多任务框架，支持目标检测、实例分割、姿态/关键点估计、旋转检测和分类任务。我们在NVIDIA Jetson Nano和Orin等边缘设备上对YOLO26进行了性能基准测试，并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13以及基于Transformer的检测器进行了对比。论文进一步探讨了实时部署路径、灵活的导出选项（ONNX、TensorRT、CoreML、TFLite）以及INT8/

宇树科技Go2机器人强化学习（RL）开发实操指南

在Go2机器人的RL开发中，环境配置、模型训练、效果验证与策略部署的实操步骤是核心环节。本文基于宇树科技官方文档及开源资源，以Isaac Gym和Isaac Lab两大主流仿真平台为核心，提供从环境搭建到实物部署的全流程操作步骤，覆盖关键命令与参数配置，帮助开发者快速落地RL开发。一、基础准备：硬件与系统要求在开始操作前，需确保硬件与系统满足RL开发的基础需求，避免后续因配置不足导致训练中断或性能瓶颈。类别具体要求说明显卡NVIDIA RTX系列（显存≥8GB）需支持CUDA加速，Isaac Gym/Isaac Lab均依赖GPU进行仿真与训练操作系统Ubuntu 18.04/20.04/22.04推荐20.04版本，兼容性最佳，避免使用Windows系统（部分依赖不支持）显卡驱动525版本及以上需与CUDA版本匹配（如CUDA 11.3对应驱动≥465.19.01，CUDA 11.8对应驱动≥520.61.05）软件依赖Conda（

Java 大视界 -- Java 大数据在智能家居设备联动与场景化节能中的应用拓展（413）

Java 大视界 -- Java 大数据在智能家居设备联动与场景化节能中的应用拓展（413） * 引言： * 正文： * 一、技术基石：Java 大数据赋能智能家居的 “三位一体” 架构 * 1.1 架构全景图 * 1.2 核心技术栈选型与生产配置（附数据出处） * 1.3 核心数据模型（POJO 类，附表结构与业务含义） * 1.3.1 设备状态实体类（对应 ClickHouse 实时表） * 1.3.2 联动规则实体类（对应 MySQL 配置表） * 1.3.3 缺失工具类补充：SpringContextUtil（生产必用） * 二、核心场景 1：