Qwen2 技术报告：模型性能与多语言能力解析

Qwen2 技术报告

摘要

本报告介绍了 Qwen2 系列，这是大型语言模型和大型多模态模型的最新成员。发布了一套全面的基础和指令调优语言模型，参数范围从 5 亿到 720 亿，包括密集模型和混合专家模型。Qwen2 超越了包括其前身 Qwen1.5 在内的大多数先前的开放权重模型，并在语言理解、生成、多语言能力、编码、数学和推理等不同基准上表现出与专有模型相比的竞争性能。

旗舰模型 Qwen2-72B 表现卓越：在 MMLU 上为 84.2，在 GPQA 上为 37.9，在 HumanEval 上为 64.6，在 GSM8K 上为 89.5，在作为基础语言模型的 BBH 上为 82.4。指令调整变体 Qwen2-72B-Induce 在 MT Bench 上达到 9.1，在 Arena Hard 上达到 48.1，在 LiveCodeBench 上获得 35.7。此外，Qwen2 展示了强大的多语言能力，精通约 30 种语言，涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，突显了其多功能性和全球影响力。

模型权重已在 Hugging Face 和 ModelScope 公开，并在 GitHub 上提供了包括示例代码在内的补充材料。这些平台还包括用于量化、微调和部署的资源，促进了广泛的应用和研究工作。

Qwen2 技术报告：模型性能与多语言能力解析