Qwen2.5 技术报告详解
TL;DR
研究动机:构建更强大、更通用、更易用的 LLM,克服现有模型在规模、数据质量、长文本处理等方面的局限。
核心创新:
- 预训练数据扩展:将高质量预训练数据从 7 万亿词元扩展到 18 万亿,增强模型的常识和专业知识。
- 数据质量提升:严格数据过滤,加入数学、编程等专业领域数据,生成高质量合成数据,优化数据混合策略。
- 模型规模多样化:提供从 0.5B 到 72B 参数的模型,包括密集模型和 MoE 模型,满足不同资源和应用需求。
- 后训练强化:实施精细的监督微调(超百万样本)和多阶段强化学习(DPO 和 GRPO),提升指令遵循、逻辑推理等能力。
- 长文本能力增强:引入 YARN 和双块注意力(DCA)技术,支持最长 100 万词元的上下文处理,特别是 Qwen2.5-Turbo。
- 易用性改进:提升最大生成长度至 8K,增强结构化数据支持,简化工具使用。
主要内容
1. 作者和团队信息
- 作者:Qwen Team(通义千问团队),阿里巴巴集团旗下的 AI 团队,专注于大语言模型及相关技术的研究和开发。
2. 背景和动机
研究问题:如何构建更强大、更通用、更易用的大语言模型(LLMs)。
问题背景:
- AGI 的快速发展:大型语言模型在语言理解、生成和推理等方面展现出强大的能力,激发了人们对通用人工智能(AGI)的期望。
- 开源 LLM 的兴起:Llama、Mistral 和 Qwen 等开源模型的出现,降低了 LLM 的使用门槛,促进了 AI 技术在各个领域的普及。
现有模型的局限性:
- 模型尺寸和参数量需要进一步探索。
- 预训练和微调数据质量需要进一步提升。
- 长文本生成、结构化数据分析和工具使用等能力有待加强。
3. 相关研究
- 模型和数据扩展:通过增加模型参数量或预训练数据量来提升模型性能。
- 预训练 + 微调:在海量无标注数据上进行预训练,在高质量标注数据上进行监督微调(SFT),并通过人类反馈进行强化学习(RLHF)。
- 长文本处理:位置编码(RoPE, ALiBi)、注意力机制优化(GQA, 窗口注意力)、上下文扩展(YARN, DCA)。
4. 核心思路
Qwen2.5 的核心思路是全面提升预训练和后训练阶段,以构建在规模、数据质量和易用性方面更优异的 LLM。其创新之处包括:
- 预训练数据扩展:将高质量预训练数据从 7 万亿词元扩展到 18 万亿。
- 数据质量提升:通过更严格的数据过滤、引入专业领域数据、生成高质量的合成数据,以及优化数据混合策略。
- 多样化的模型规模:提供从 0.5B 到 72B 参数的模型,包括密集模型和专家混合(MoE)模型。
- 后训练强化:实施精细的监督微调和多阶段强化学习,包括离线学习 DPO 和在线学习 GRPO。
- 长文本能力增强:通过引入 YARN 和双块注意力(DCA)等技术,支持更长的上下文长度。
- 易用性改进:解决前代模型在使用上的限制,如将最大生成长度从 2K 增加到 8K。
5. 方案与技术
模型架构
- Dense 模型:基于 Transformer 的 Decoder 架构,采用 GQA、SwiGLU、RoPE、QKV bias 和 RMSNorm 等组件。


