Qwen2.5 技术报告解析：18 万亿 Token 训练与性能表现

综述由AI生成Qwen2.5 系列模型通过预训练数据规模从 7 万亿扩展至 18 万亿 token，结合智能过滤与专业领域数据融入，显著提升了知识储备。后训练阶段采用百万级样本监督微调及分阶段强化学习（DPO、GRPO），增强了长文本生成、逻辑推理及指令遵循能力。在基准测试中，Qwen2.5-72B-Instruct 表现卓越，尤其在数学、编程及长上下文处理方面超越部分更大参数模型。Qwen2.5-Turbo 支持百万 token 上下文，推理速度优化明显，为复杂任务处理提供了高效解决方案。该模型在保持高性能的同时降低了计算负载，为行业应用提供了灵活选择。

NodeJser发布于 2025/2/6更新于 2026/6/319 浏览

引言

大语言模型（LLMs）的发展日新月异，每一次重大更新都可能带来性能的显著提升和应用场景的拓展。在这个背景下，阿里巴巴最新发布的 Qwen2.5 系列模型引起了广泛关注。这篇技术报告详细介绍了 Qwen2.5 的开发过程、创新点和性能表现，展示了其在自然语言处理领域的最新进展。

Qwen2.5 系列模型的核心创新主要体现在两个方面：预训练和后训练。在预训练阶段，研究团队将训练数据规模从 7 万亿 token 扩大到 18 万亿 token，这一巨大的数据量级的提升为模型的知识获取和理解能力奠定了坚实基础。在后训练阶段，研究者采用了包含 100 万样本的监督微调（SFT）和分阶段强化学习（包括离线学习 DPO 和在线学习 GRPO）的复杂技术，这些方法显著提高了模型对人类偏好的对齐程度，并增强了长文本生成、结构化数据分析等能力。

本文将深入探讨 Qwen2.5 模型的开发过程，包括其在预训练和后训练阶段的创新方法，以及在各种基准测试中的表现。通过这篇报告，我们可以一窥当前大语言模型技术发展的前沿，了解 Qwen2.5 如何在众多竞争对手中脱颖而出，成为推动自然语言处理技术进步的重要力量。

预训练阶段的创新

数据处理的突破

Qwen2.5 在预训练数据的处理上有几个显著的创新点，这些创新极大地提高了训练数据的质量和多样性。

智能数据过滤

研究团队巧妙地利用了 Qwen2 模型来对预训练数据进行智能过滤。这种方法不仅提高了数据质量，还增强了模型对多语言数据的处理能力。通过这种自我迭代的方式，Qwen2.5 能够更好地识别和保留高质量的训练样本，同时有效过滤掉低质量的数据。

专业领域数据的融入

Qwen2.5 的另一个亮点是融入了来自 Qwen2.5 Math 和 Qwen2.5 Coder 的专业数据。这些数据涵盖了数学和编程领域的高质量样本，极大地增强了模型在这两个关键领域的能力。这种专业数据的引入，使得 Qwen2.5 在处理数学问题和编程任务时表现出色。

高质量合成数据

研究团队还利用 Qwen2-72B 和 Qwen2-Math 模型生成高质量的合成数据。更值得注意的是，他们使用 Qwen2-Math-RM 模型对这些合成数据进行进一步筛选，确保了合成数据的质量和相关性。这种方法不仅扩大了训练数据的规模，还保证了数据的高质量和多样性。

智能数据混合

为了平衡不同类型的数据，研究者使用 Qwen2 模型对数据进行分类，然后对不同类别的数据进行均衡处理。这种方法确保了模型能够从各种类型的数据中学习，避免了某些领域数据过多而导致的偏差。

突破性的扩展法则

Qwen2.5 的另一个重要创新在于其扩展法则（Scaling Law）的应用。研究团队深入研究了在不同模型大小（N）和数据量（D）下的最优学习率和批量大小（Batch Size）。这种方法允许研究者为不同规模的模型找到最佳的训练参数，从而在训练效率和模型性能之间取得平衡。

长上下文处理的创新

Qwen2.5 在处理长上下文方面也有显著突破：

多阶段训练：模型训练分为两个阶段，首先在 4K 上下文长度上训练，然后扩展到 32K。这种渐进式的方法使模型能够逐步适应更长的上下文。
RoPE 基础值调整：通过 ABF 技术调整 RoPE 的基础值，进一步增强了模型处理长序列的能力。
Qwen2.5-Turbo 的创新：这个特殊版本采用了四阶段训练策略（4K, 32K, 64K, 128K），每个阶段都确保 40% 的数据达到最大长度，而 60% 是较短的序列。这种平衡的方法使得模型在各种长度的输入上都能表现出色。
推理阶段的优化：引入 YARN 和 Dual Chunk Attention 技术，进一步提升了模型在实际应用中处理长序列的能力。

这些创新使得 Qwen2.5 在处理长文本和复杂上下文时表现出色，大大扩展了模型的应用场景。

后训练阶段的优化

后训练阶段是 Qwen2.5 模型提升性能的关键环节。研究团队在这一阶段采用了一系列创新方法，包括复杂的监督微调（SFT）和多阶段强化学习。

监督微调（SFT）的创新

长序列生成能力的提升

Qwen2.5 突破性地将输出长度提升到 8K tokens。研究团队巧妙地从预训练数据集中生成查询（Query），并添加长度控制指令，使模型能够生成更长、更连贯的文本。这一改进极大地增强了模型在长文本生成任务中的表现。

数学能力的增强

研究者利用 Qwen2.5 Math 的链式思考（Chain of Thought, CoT）数据，并通过拒绝采样（Rejection Sampling）技术生成逐步推理过程。这种方法不仅提高了模型的数学推理能力，还使其能够清晰地展示解题步骤。

Qwen2.5 技术报告解析：18 万亿 Token 训练与性能表现

引言

预训练阶段的创新

数据处理的突破

智能数据过滤

专业领域数据的融入

高质量合成数据

智能数据混合

突破性的扩展法则

长上下文处理的创新

后训练阶段的优化

监督微调（SFT）的创新

长序列生成能力的提升

数学能力的增强

更多推荐文章

相关免费在线工具

编程能力的提升

指令遵循能力的优化

结构化数据理解的增强

逻辑推理能力的提升

多语言能力的增强

系统指令鲁棒性的提高

响应质量的严格把控

离线强化学习（Offline RL）的创新

在线强化学习（Online RL）的突破

奖励模型的优化

数据集的多样性

创新的训练框架

智能采样策略

Qwen2.5 的性能评估

开放基准测试

内部专业评估

长上下文处理能力的突破

总结与应用展望

更多推荐文章

相关免费在线工具

Qwen2.5 技术报告解析：18 万亿 Token 训练与性能表现

引言

预训练阶段的创新

数据处理的突破

智能数据过滤

专业领域数据的融入

高质量合成数据

智能数据混合

突破性的扩展法则

长上下文处理的创新

后训练阶段的优化

监督微调（SFT）的创新

长序列生成能力的提升

数学能力的增强

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

编程能力的提升

指令遵循能力的优化

结构化数据理解的增强

逻辑推理能力的提升

多语言能力的增强

系统指令鲁棒性的提高

响应质量的严格把控

离线强化学习（Offline RL）的创新

在线强化学习（Online RL）的突破

奖励模型的优化

数据集的多样性

创新的训练框架

智能采样策略

Qwen2.5 的性能评估

开放基准测试

内部专业评估

长上下文处理能力的突破

总结与应用展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具