Qwen3论文阅读

1、核心架构改进:

1)注意力机制

采用了 GQA (Grouped Query Attention) 以提高推理效率

什么是GQA注意力机制?

介于传统的多头注意力机制以及极简的MQA注意力机制之间,目标为平衡生成速度以及模型精度

首先我们先看一看多头注意力机制以及多询注意力机制的区别

MHA (Multi-Head Attention): 每个 Query (Q) 都有对应的 Key (K) 和 Value (V)。虽然效果最好,但在推理时需要缓存大量的 KV 状态(KV Cache),导致内存占用高,推理速度慢。

MQA (Multi-Query Attention): 所有的 Q 共享同一组 K 和 V。这极大地减少了内存占用和数据传输,速度极快,但由于表达能力大幅下降,模型性能(准确度)通常会受损。

GQA:把query分成若干组每一组共享KV

详细的计算流程:

假设我们输入一个128length的token序列,模型中存储了一个计算query的矩阵Wq,大小为[512,512],X x Wq = Total_Q,得到一个[128,512]的结果,后续在物理上计算结束后,会将512维切位8份,每一份即为[128,64]于是就得到了8个query

若分为两组那么每四个query为一组,共享一个KV。

2)RMSNorm

RMSNorm 是标准 LayerNorm(层规范化)的一种简化变体,旨在提高计算效率

节省计算开销

此外还采用了前置规范化

后置规范化(post-norm):

先做子层操作(如 Attention 或 FFN)并与输入相加,最后整体做一次 Norm。

前置规范化 (Pre-Norm):

输入先经过 Norm,然后再进入子层操作,最后将结果加回原始输入。

3)SwiGLU激活函数:

传统的激活函数如下所示

SwiGLU 的核心改进是将 GLU 中的 Sigmoid 函数替换为 Swish 激活函数。

在 Qwen3 的 Transformer 块中,前馈网络(FFN)层利用 SwiGLU 进行非线性变换,计算逻辑由三个矩阵组成Wgate,Wup,Wdown,SiLU为Swish函数

门控分支:当x小于0时,SiLU激活函数迅速将其切断,变为0,切断其向下传递的渠道

QK-Norm:在进行注意力计算时,对Q和K进行归一化(防止注意力瘫缩)

对Q和K进行归一化的方法:对每个矩阵的每个向量进行归一化,在训练过程中,必须要使用半精度来节省显存,所以进行归一化恢复对向量的敏感并且防止数据溢出。

2、后训练pipeline

整体的结构如下所示:

旗舰模型采用四阶段的后训练模式,前面两个阶段注重思考推理,后面的阶段注重非思考能力

1)长思维链冷启动阶段(long-CoT Cold Start)

采用qwen2.5-72B进行数据清洗,剔除掉不需要思考可以直接回答的问题

冷启动的作用:

建立初始模式:通过精选的子集进行初始训练,旨在模型中植入基础的推理模式。

为 RL 留白:训练时故意不追求极端的推理表现,以防模型产生路径依赖,从而为后续强化学习(RL)阶段留出更大的改进空间和灵活性。

极简主义:在冷启动阶段,倾向于最小化训练样本数和训练步数,保持模型的“潜力”

2)推理强化学习阶段(Reasoning-RL)

采用GRPO的强化学习策略进行训练

训练策略:

使用Batch Size(大批次)和高 Rollouts(每个问题生成多个答案)。

使用 Off-policy(离线策略)训练来提高样本效率。

通过控制**熵(Entropy)**来平衡“探索”与“利用”,防止模型过早陷入局部最优。

3)通用强化学习阶段(general rl)

奖励函数的设计:

奖励类型原理优点解决的问题
(1) 基于规则 (Rule-based)用代码/正则硬性判断极其精准,不可作弊判断格式是否正确、长度是否达标、代码是否可运行。
(2) 有参考答案的模型打分 (Model-based w/ Ref)让 Qwen2.5-72B 对照标准答案给学生(新模型)打分灵活且标准明确避免规则太死板导致的“误判”(比如意思对但字不同)。
(3) 无参考答案的模型打分 (Model-based w/o Ref)用人类偏好训练出一个 Reward Model(奖励模型)直接打分适用范围最广处理主观问题,提升回答的“高级感”和好感度。

4)强对弱蒸馏(Strong-to-Weak Distillation)

stage1:离线蒸馏

将大模型的答案直接喂给小模型进行训练,相当于直接是sft阶段监督训练。

stage2:在线蒸馏

让小模型自己针对某个问题生成回答(On-policy)。与此同时,让更强大的老师模型(如 Qwen3-235B)也针对同样的问题给出一个输出概率分布,计算 KL 散度(KL Divergence):通过数学手段缩小“学生”和“老师”在逻辑预测上的差距(对齐 Logits)。

Read more

视频秒变爆款脚本!基于腾讯混元多模态AI的智能视频分析与创作助手

视频秒变爆款脚本!基于腾讯混元多模态AI的智能视频分析与创作助手

视频秒变爆款脚本!基于腾讯混元多模态AI的智能视频分析与创作助手 🌟 Hello,我是摘星! 🌈 在彩虹般绚烂的技术栈中,我是那个永不停歇的色彩收集者。 🦋 每一个优化都是我培育的花朵,每一个特性都是我放飞的蝴蝶。 🔬 每一次代码审查都是我的显微镜观察,每一次重构都是我的化学实验。 🎵 在编程的交响乐中,我既是指挥家也是演奏者。让我们一起,在技术的音乐厅里,奏响属于程序员的华美乐章。 摘要 作为一名深耕AI技术多年的程序员,我最近参与了腾讯混元AIGC多模态挑战赛,开发了一个令人兴奋的项目——基于腾讯混元API的智能视频分析与创作助手。这个项目的诞生源于我对内容创作效率提升的思考:为什么我们不能让AI帮助创作者从现有的热门视频中学习,快速生成具有相似吸引力的脚本呢? 在这个信息爆炸的时代,短视频内容创作已成为数字经济的重要引擎。然而,许多创作者面临着"创意枯竭"和"脚本撰写效率低下"的双重困扰。我深深理解这种痛点,因为在我自己的技术分享视频制作过程中,也常常为如何组织内容结构、把握节奏感而苦恼。正是这种共鸣促使我思考:能否利用腾讯混元强大的多模态AI能力,构建一个能

AI时代,如何把握机会

AI时代,如何把握机会

AI时代的段位划分:从菜鸟到大师,你在哪个层级,会正真的使用AI提高工作效率吗。 人类在摸爬滚打的历程中,从本质上是在提升效率问题。 造纸术打破了知识的壁垒,火车缩短了时空的距离,汽车解放了双脚的束缚,电话连接了心灵的桥梁。每一次技术的飞跃,都是人类对效率的重新定义。而AI的出现,则是这场定义中的最新诠释,用数字的智慧续写着人类文明的传奇。 可以类比自动驾驶的五个层次LO-L4,AI也可以划分为5个层级界线。 总结:90%的人目前处于第一、二阶段,处于第三阶段的老豆已经超于了90%的人群。 第一层级:入门级-基础对话能力 在deepseek未爆火前,国内AI使用渗透率不足7%,这是一个非常可怕的数字,意味着中国有14亿人口,其实很多人都是没有接触过AI的。直到deepseek爆火之后,很多用户抱着试玩一下,所有才有这么多人拥有这样入门级的一个阶段。 第二层级:基础级-提示词工程 可能大部分人目前已经达到了这个级别,已经掌握了一些基本的提示词的一些技巧,而不是把AI当成一个日常的助手,直接去问它问题,而是说,你跟AI问的任何问题、任何输入,都是经过了精心的设计: 比如以

基于飞算JavaAI实现学生成绩综合统计分析系统的设计与实现

基于飞算JavaAI实现学生成绩综合统计分析系统的设计与实现

前言   在教育教学管理场景中,学生成绩的统计与分析是教学质量评估、学生学习情况追踪的关键环节。传统人工统计方式不仅耗时耗力,还易因人为操作出现数据误差,且难以快速生成可视化报表与多维度分析结果。为解决这一痛点,本文以“学生成绩综合统计分析系统”开发为例,详细拆解如何借助飞算JavaAI插件的全流程智能辅助功能,从需求描述到代码落地,大幅缩短开发周期,同时保证系统功能完整性与代码规范性。 飞算 AI 在学生成绩综合统计分析系统开发中的应用 一、飞算 AI 在系统开发中的核心优势 在学生成绩综合统计分析系统开发过程中,飞算 AI 插件凭借自然语言转代码、自动化生成项目骨架、智能补全代码等功能,大幅降低开发门槛、缩短开发周期,具体优势如下: 1. 自然语言驱动开发:无需手动编写基础代码,仅需通过自然语言描述功能需求,即可自动生成实体类、接口、服务层代码,减少重复编码工作,避免语法错误。 2. 项目骨架一键生成:支持按指定技术栈(如 Spring Boot 3.x + MyBatis -

深入解读 AI 编程工具 — Cursor

在 AI 工具爆发的时代,各类辅助编程产品层出不穷。而其中 Cursor 因其独特的设计与对开发者真实问题的深度关注,正在成为开发者群体热议的焦点。 本文将带你清晰了解:什么是 Cursor?它如何工作?真正解决了哪些痛点?为何能成为行业快速增长的工具?  一、Cursor 的起源与快速成长 Cursor 背后的初创公司 Anysphere 成立于 2022 年,而 Cursor 的首个版本在 2023 年 3 月推出。仅仅两年时间,Anysphere 就完成了 9 亿美元的 C 轮融资,公司估值高达 99 亿美元!更令人惊讶的是,Cursor 的年收入已经突破 5 亿美元,这在开发工具领域几乎前所未有——据我所知,没有其他公司能在推出第一款产品后的两年内达到这样的规模。 Cursor 的快速普及也得益于企业级市场的认可: